TransCenter: Transformers with Dense Queries for Multiple-Object Tracking-程序员宅基地

技术标签: MOT  多目标跟踪(MOT)  目标追踪  

论文地址:TransCenter: Transformers with Dense Queries for Multiple-Object Tracking


主要贡献:

  1. 使用transformer进行多目标中心追踪,定义为TransCenter
  2. 提出多尺度密集query推理位置热图,·使用学习层在当前图的编码上计算得出。

介绍和相关工作

作者认为TransTrack 和 TrackFormer使用Bbox表示行人是很容易理解的,因为检测中边界框也是广泛使用的,但是当处理密集场景的情况,基于边界框的追踪方法往往会有很多缺点,并且基于框的方法往往由于重叠性很难处理遮挡问题。本论文,作者基于Transformer的center检测方法,去解决遮挡问题。

首先第一个困难就是获得密集表示(如中心热图),为此作者提出使用(像素级别)密集多尺度query。除了允许基于热图的MOT外,密集query的使用克服了用少量query查询解码器所带来的限制。

TransCenter有两个不同的解码器:一个用于行人检测,一个用于行人追踪。两个解码器基于当前图片在不同的可学习层提取query。当前帧的的缓存(transformer编码器的输出)送于检测解码器,过去帧的缓存送到追踪解码器。

基于点的检测方法表面了基于anchor的检测方法对于MOT来说不一定是最合适的,作者这里也是使用点来进行追踪。

TransCenter

过去的基于Transformer的工作都尝试学习边界框的推理,但是作者探索了一种另外的可替代的方法:热图。但是,不同于边界框,热图是密集的,而不是稀疏的。所以,作者引入了密集多尺度query,并且这应该是第一次使用密集query的特征图来进行缩放输入图像。实验中,decoder大概有14k个query。考虑到内存损耗,受可变卷积启发,提出了可变解码器。

作者将MOT任务分解为两个子任务,一个是在时间 t t t的目标检测任务,以及和时间 t − 1 t-1 t1的检测进行关联的关联任务。通过使用全可变性双解码结构,两个任务平行工作。检测解码器的输出用于估计检测的中心和大小,通过和追踪解码器的组合,估计目标的位移。通过组合中心热图和一个双向解码结构,目标关联不仅可以依赖几何特征(IoU),还可以依赖解码器的视觉特征。

概述

网络总体框架如下图所示:
在这里插入图片描述
t t t帧和 t − 1 t-1 t1帧的视频图像喂入CNNbackbone产生多尺度特征,然后通过可变编码器分别产生缓存 M t M_t Mt M t − 1 M_{t-1} Mt1 M t M_t Mt通过两个query学习网络(QLN)获得密集多尺度检测和追踪query( D Q T DQ_T DQT T Q t TQ_t TQt)。 D Q T DQ_T DQT T Q t TQ_t TQt顺带 M t M_t Mt M t − 1 M_{t-1} Mt1分别喂入检测和追踪可变性解码器,获得输出多尺度检测和追踪特征( D F t DF_t DFt T F t TF_t TFt),用于估计中心热图和目标尺寸。所有的多尺度特征和生成的 t − 1 t-1 t1帧的中心热图一起计算每个中心点的位移。

密集多尺度query

传统的Transformer输出和输出元素相同,这些输出和实体相关(行人边界框)。当推导中心热图的时候,一个像素成为行人中心的概率成为了这样的实体,需要解码器来获得这些编码器加上QLN产生的多尺度密集query。两个QLN,一个用于前向传播进行像素级处理,获得 D Q t DQ_t DQt,第二个通过处理 D Q t DQ_t DQt来获得 T Q t TQ_t TQt。都送入完全可变性双解码器中。

完全可变性双解码器

通过两个子可变性解码器分别平行处理检测和追踪两个子任务,检测解码器通过 D T t DT_t DTt M t M_t Mt,加上注意力模块获得 I t I_t It的目标检测,追踪解码器通过 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1来将检测目标和他们在过去图片 I t − 1 I_{t-1} It1上的位置进行关联。

具体的检测编码器通过多尺度特征 D Q t DQ_t DQt输出多尺度检测特征 D F t DF_t DFt,用于寻找目标中心和边界框大小。 可变形追踪编码器找到 M t − 1 M_{t-1} Mt1中的目标,将他们和 t t t中的目标进行关联。为此,追踪编码器中的多头可变性注意力实现了多尺度特征 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1之间的时序交叉关联,输出多尺度追踪特征 T F t TF_t TFt T F t TF_t TFt包含用于估计位移的时序信息。

检测和追踪解码器都输入密集query特征图,同属输出密集信息。但是传统Transformer中的多头注意力模型占存很大且算力复杂,为此作者使用可变形多头注意力层来代替传统注意力层处理多尺度特征。

中心、大小和追踪分支

解码器生成的两个多尺度特征图 D F t DF_t DFt T F t TF_t TFt分别缩放为原图的1/64, 1/32, 1/16 和1/8的分辨率大小。对于中心点和目标大小分支,不同分辨率的特征图通过可变性卷积和双线性差值进行组合,如下图结构:
在这里插入图片描述
最终获得1/4的原图分辨率大小的特征图 C t ∈ [ 0 , 1 ] H / 4 × W / 4 C_t\in [0,1]^{H/4\times W/4} Ct[0,1]H/4×W/4 S t ∈ [ 0 , 1 ] H / 4 × W / 4 × 2 S_t\in [0,1]^{H/4\times W/4\times 2} St[0,1]H/4×W/4×2 S t S_t St的两个通道编码了长和宽。

对于追踪分支,两个多尺度特征通过相同的(不同参数)上采样获得两个1/4分辨率大小特征图。两个特征图和下采样后的过去的中心热图 C t − 1 C_{t-1} Ct1进行concat,和其他分支一样,一个卷积层块计算最终的输出,如目标位移 T t ∈ R H / 4 × W / 4 × 2 T_t\in R^{H/4\times W/4\times 2} TtRH/4×W/4×2,两个通道代表水平和垂直位移。

训练

TransCenter通过联合学习目标中心热度图的分类任务和一个目标大小及追踪位移的回归任务组成。

中心focal_loss:
为了训练中心分支,需要构建GT热度图 C ∗ ∈ [ 0 , 1 ] H / 4 × W / 4 C^*\in [0,1]^{H/4\times W/4} C[0,1]H/4×W/4。我们通过考虑以每一个 K > 0 K >0 K>0为中心的高斯核集的最大响应构造 C ∗ C^∗ C。对于每个像素位置 ( x , y ) (x,y) (x,y),GT热图表示为:
C x y ∗ = max ⁡ k = 1 , … , K G ( ( x , y ) , ( x k , y k ) ; σ ) (1) \mathbf{C}_{x y}^{*}=\max _{k=1, \ldots, K} G\left((x, y),\left(x_{k}, y_{k}\right) ; \sigma\right) \tag{1} Cxy=k=1,,KmaxG((x,y),(xk,yk);σ)(1)
其中 ( x k , y k ) (x_k,y_k) (xk,yk)为GT框的中心, G ( ⋅ ; ⋅ ; σ ) G(·;·;σ) G(σ)表示以σ为传播因子的高斯核,实验中设置为目标大小。考虑到GT C ∗ C^∗ C和推理 C C C中心热图,使用中心focal loss L c L_c Lc计算损失: L C = 1 K ∑ x y { ( 1 − C x y ) α log ⁡ ( C x y ) C x y ∗ = 1 ( 1 − C x y ∗ ) β ( C x y ) α log ⁡ ( 1 − C x y )  otherwise  (2) L_{\mathrm{C}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left(1-\mathbf{C}_{x y}\right)^{\alpha} \log \left(\mathbf{C}_{x y}\right) & \mathbf{C}_{x y}^{*}=1 \\ \left(1-\mathbf{C}_{x y}^{*}\right)^{\beta}\left(\mathbf{C}_{x y}\right)^{\alpha} \log \left(1-\mathbf{C}_{x y}\right) & \text { otherwise } \end{array}\right. \tag{2} LC=K1xy{ (1Cxy)αlog(Cxy)(1Cxy)β(Cxy)αlog(1Cxy)Cxy=1 otherwise (2)
缩放因子α = 2 ,β = 4。

稀疏回归损失:
S S S T T T只在那些目标中心存在的位置进行监督,例如在 C x y ∗ = 1 C^*_{xy}=1 Cxy=1使用L1损失进行监督:
L S = 1 K ∑ x y { ∥ S x y − S x y ∗ ∥ 1 C x y ∗ = 1 0  otherwise  (3) L_{\mathrm{S}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left\|\mathbf{S}_{x y}-\mathbf{S}_{x y}^{*}\right\|_{1} & \mathbf{C}_{x y}^{*}=1 \\ 0 & \text { otherwise } \end{array}\right. \tag{3} LS=K1xy{ SxySxy10Cxy=1 otherwise (3)

L t L_t Lt L s L_s Ls使用追踪输出和GT相似计算。并且为了弥补稀疏问题,加入一个额外的L1回归损失,表示为 L R L_R LR计算由 S t S_t St计算的边界框的中心和GT中心的损失。

总体损失为所有损失之和: L = L C + λ S L S + λ T L T + λ R L R (4) L=L_{\mathrm{C}}+\lambda_{\mathrm{S}} L_{\mathrm{S}}+\lambda_{\mathrm{T}} L_{\mathrm{T}}+\lambda_{\mathrm{R}} L_{\mathrm{R}} \tag{4} L=LC+λSLS+λTLT+λRLR(4)

实验

匹配关联还是直接使用的匈牙利算法,保留60帧。
网络方面,输入图片为640 × 1088,编码器和解码器有6层256维度的8个注意力头。QLN由连个全连接层加rulu几号组成。CNN的bakbone为ResNet-50。训练损失权重 λ S = 0.1 , λ R = 0.5 、 λ T = 1.0 λ_S = 0.1, λ_R = 0.5、 λ_T = 1.0 λS=0.1,λR=0.5λT=1.0,总体优化为AdamW优化器。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41214679/article/details/115528784

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型 例:var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型 例: var v=null;Number中:NaN -- not a number非数本身是一个数字,但是它和任何数字都不相等,代表非数,它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次,点赞2次,收藏17次。兑换码编码设计当前各个业务系统,只要涉及到产品销售,就离不开大大小小的运营活动需求,其中最普遍的就是兑换码需求,无论是线下活动或者是线上活动,都能起到良好的宣传效果。兑换码:由一系列字符组成,每一个兑换码对应系统中的一组信息,可以是优惠信息(优惠券),也可以是相关奖品信息。在实际的运营活动中,要求兑换码是唯一的,每一个兑换码对应一个优惠信息,而且需求量往往比较大(实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句 第四章 结构化程序设计 4.1 选择结构程序设计 在现实生活中,需要进行判断和选择的情况是很多的: 如果你在家,我去拜访你 如果考试不及格,要补考 如果遇到红灯,要停车等待 第四章 结构化程序设计 在现实生活中,需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明 在驱动程序中实现的ioctl函数体内,实际上是有一个switch{case}结构,每一个case对应一个命令码,做出一些相应的操作。怎么实现这些操作,这是每一个程序员自己的事情。 因为设备都是特定的,这里也没法说。关键在于怎样组织命令码,因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径 。 命令码的组织是有一些讲究的,因为我们一定要做到命令和设备是一一对应的,利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations,选择JSON界面做如下改动:1.首先把 “/usr/include”,放在最前2.查看C++路径,终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇,因未有精力写更多的入门教程,上篇已经抛出书单,有兴趣的朋友可阅读好书来成长,此系列主讲有理由爱Sqlserver的论证性文章,希望读者们看完后,可自行做出判断,Sqlserver是否真的合适自己,目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体,在Excel中,我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台(教育大脑)项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次,点赞6次,收藏4次。教育智脑)建立学校的全连接中台,对学校运营过程中的数据进行处理和标准化管理,挖掘数据的价值。能:一、原先孤立的系统聚合到一个统一的平台,实现单点登录,统一身份认证,方便管理;三、数据共享,盘活了教育大数据资源,通过对外提供数。的方式构建教育的通用服务能力平台,支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素(人、机、料、法、环、测)全面互联,数据实时。智慧校园解决方案,赋能教学、管理和服务升级,智慧教育体系,该数据平台具有以下几大功。教育大数据平台底座:教育智脑。教育大数据平台,以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次,点赞2次,收藏27次。分治法,动态规划法,贪心算法这三者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索,其思想的差异是深度优先和广度优先一:分治算法一、基本概念在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm,这是我随笔篇章的第二更,原本计划是在中秋放假期间写好的,但是放假的时候被安排写一下单例模式,做了俩机试题目,还刷了下PAT的东西,emmmmm,最主要的还是因为我浪的很开心,没空出时间来写写东西。  距离我考研结束已经快两年了,距离今年的考研还有90天左右。  趁着这个机会回忆一下青春,这一篇会写的比较有趣,好玩,纯粹是为了记录一下当年考研中发生的有趣的事。  首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式:warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑,目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程 郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法:第一是自然语言描述,第二是使用专用工具进行算法描述2、c 语言程序的结构如下:1、c 语言程序由函数组成,每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e