【论文解读】QUEST: Query Stream for Practical Cooperative Perception

news/2024/5/19 21:30:21

QUEST

  • 摘要
  • 引言
  • QUERY COOPERATION PARADIGM
  • QUEST FRAMEWORK
    • A. Overall Architecture
    • B. Cross-agent Query Interaction
  • 实验
  • 结论

摘要

合作感知通过提供额外的视点和扩展感知领域,可以有效地提高个体感知性能。现有的合作模式要么是可解释的(结果合作),要么是灵活的(特征合作)。在本文中,我们提出了查询协作的概念,以实现可解释的实例级灵活的特征交互。为了具体解释这一概念,我们提出了一个称为QUEST的合作感知框架,该框架允许查询流在代理之间流动。跨代理查询通过对共同感知实例的融合和对单个未感知实例的补充进行交互。以基于摄像头的车辆基础设施感知为典型的实际应用场景,在DAIR-V2X-Seq真实数据集上的实验结果验证了QUEST的有效性,进一步揭示了查询协作范式在传输灵活性和对丢包的鲁棒性方面的优势。我们希望我们的工作能够进一步促进跨代理表示交互,从而在实践中获得更好的合作感知。

引言

我们提出了查询协作的概念,这是一种基于跨代理的查询流的实例级特征交互范式,位于场景级特征协作和实例级结果协作之间的中点(图1)。在这里插入图片描述
实例级的协作使其更具物理可解释性,特征交互引入了更多的信息弹性。具体来说,我们提出了一个名为QUEST的框架,作为描述这一概念的代表性方法,其中查询在代理之间的流中流动。

  • 首先,每个代理执行基于个体变换器的感知。解码器输出的每个查询都对应于一个可能检测到的对象,如果其置信度分数满足请求代理的要求,则该查询将被共享。当跨代理查询到达时,它们被用于查询融合和互补,理论上,从其他角度来看,查询融合可以利用特征增强感知实例的特征,而查询互补可以直接补充局部感知系统的未感知实例。
  • 然后,将查询用于协作感知,得到最终的感知结果。为了评估QUEST的性能,我们在DAIR-V2X-Seq上基于在图像捕获时间戳标记的单侧地面实况生成以相机为中心的协作标签。

贡献:

  • 我们提出了合作感知任务的查询合作范式的概念,它比场景级的特征合作更具可解释性,比结果合作更具灵活性。
  • 提出了一种具有代表性的查询协作框架QUEST。跨代理查询通过融合和互补在实例级别进行交互。
  • 我们以基于摄像头的车辆基础设施协同目标检测为典型的应用场景。在真实世界数据集DAIRV2X-Seq上的实验结果证明了QUEST的有效性,并进一步展示了查询协作范式在灵活性和稳健性方面的优势。此外,还生成了以相机为中心的合作标签,以促进相关研究的进一步发展。

QUERY COOPERATION PARADIGM

共享什么和如何合作是实际合作感知的两个主要问题,特别是考虑到无线通信的带宽有限。为了设计更好的合作策略,它既要有可解释性,也要有灵活性,因为可解释性导致了可控的合作,而灵活性提供了更多的操作空间和可能性。考虑到这一点,我们提出了查询合作范式,该范式跨代理共享特征,并通过实例级特征交互进行合作。
Query Generation。车辆和基础设施始终进行个体感知,每个感知预测P对应一个对象查询Q,根据基于变压器的感知理论,
P = g(Q) = g(f (D))(1),
其中f(·)为查询的特征提取函数,g(·)为基于查询的预测函数,D为输入传感器数据。
Query Transmission。当车辆从基础设施端请求附加信息时,将触发查询协作。注意,查询请求可以与特定的实例级需求一起出现,如置信度阈值和区域掩码。然后,将满足要求的查询发布到车辆侧。
Query Interaction。同时利用接收到的查询Qinf和本地查询Qveh进行进一步的协同感知,查询交互策略是确定如何用Qinf对Qveh进行增强和补充。
qcoop = h(Qveh, Qinf)(2),
其中h(·)表示查询交互函数,qcoop是生成的协作查询集。
Query-based Prediction。Qcoop被进一步馈送到基于查询的感知任务预测头中,从而产生最终的合作感知预测Pcoop。
Pcoop = g(Qcoop)。

QUEST FRAMEWORK

A. Overall Architecture

为了详细说明查询合作的概念,我们在本节中描述了提出的代表性框架。基于摄像机的传感器系统由于部署方便,在实际应用中得到了广泛的应用。因此,我们以基于摄像头的车辆-基础设施协同感知为典型场景来描述该框架。
如图2所示,QUEST通过跨代理查询流实现协作感知。当查询协作由车辆触发时,对象查询从基础设施端流向车辆端。该框架主要由两个功能模块组成,分别是基于单agent查询的感知模块和跨agent查询交互模块。在这里插入图片描述
对于每个单独的智能体,比如车辆,基于查询的感知模块会持续运行,以确保基本的个体感知能力,利用其自身从车载系统获得的传感器数据。无论查询合作是否被触发,它都会输出感知预测。理论上,每一种基于查询的感知方法都可以直接插入,本文我们以PETR[20]为例。将捕获的图像输入主干进行特征提取,并将特征和校准参数输入到基于变压器的解码器中进行目标检测。每个预测都匹配一个相应的对象查询,它是查询流的源。考虑到无线通信的带宽有限,根据车辆侧所需的置信度阈值对基础设施侧查询流进行分流,从而实现高质量的稀疏特征传输。
当基础设施侧查询流流到车辆侧时,与本地查询流结合形成协同查询流。跨代理查询交互模块设计用于集成来自不同源的对象查询,这将在下一小节中详细说明。联合查询流最终聚集到基于变压器的解码器,并输出合作预测。

B. Cross-agent Query Interaction

与所有其他合作范式一样,如何对跨代理信息进行聚合一直是该框架中最重要的部分。得益于可解释的实例级协作,查询交互机制是自然的,包括对共同感知对象的查询融合和对未意识对象的查询补充。
首先,交叉代理查询的相应位置应该转换成一个统一的坐标系,通常是车辆侧的激光雷达坐标系。由于每个查询都与3D参考点一起,因此使用校准参数(旋转和平移矩阵)可以容易地执行变换。
实例级预测在结果协作中根据它们的位置进行匹配。虽然该策略可以直接在QUEST中采用,但它依赖于精确的位置预测和精确的坐标变换。为了实现更健壮的查询匹配,我们提出了双空间查询嵌入。
【Dual-space Query Embedding】
同时考虑了位置信息和语义信息,这些信息嵌入在物理空间和特征空间中。对于位置嵌入,我们将精确的中心扩展到网格,以提供对位置噪声的高容忍度,如图3所示。网格中的3D坐标在归一化后被连接以形成网格嵌入。然而,位置的松散约束不可避免地会引入错误的匹配对。
在这里插入图片描述
双空间查询嵌入的位置网格说明。与精确的基于中心的匹配相比,基于网格的匹配对位置噪声具有更强的鲁棒性。
我们进一步考虑语义信息,以额外关注外观。从技术上讲,查询的特征与网格嵌入Eg连接,并且使用多层感知器(MLP)编码器生成双空间查询嵌入
Cross-agent Query Alignment
是查询协作的一种具体和必要的操作,这主要是由于实例级方向的隐式编码。预测结果的方向在结果合作中明确表示,密集特征图的方向与相应的坐标系直接相关。因此,它们都可以通过显式坐标系变换来实现方向变换。然而,实例级查询中的隐式编码特征不能手动操作,即使方向相关特征与其他特征解耦。我们采用 MLP 进行特征空间对齐,从而实现隐式方向变换和多智能体特征对齐。
Attentive Query Fusion
是通过基础设施侧视图的查询来增强车辆侧感知查询。双空间查询嵌入对融合有很好的指导作用。具体来说,我们计算每两个查询对之间的嵌入距离,并在此基础上通过MLP生成注意融合权重。
Query Complementation
查询补充是用接收到的基础结构侧查询来补充车辆侧不知道的对象查询。我们不再简单地将跨代理查询插入到本地查询流中,而是采用替换策略来降低额外的计算成本。首先,根据置信度得分对车辆侧查询进行排序。然后使用接收到的查询来替换置信度较低的查询,如图4所示。
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

结论

针对可解释和灵活的协作感知,本文提出了查询协作的概念,通过查询流实现代理之间的实例级特征交互。为了具体描述查询协作,提出了一个具有代表性的协作感知框架(QUEST)。它通过融合和互补的方式实现跨代理查询交互,分别针对共知对象和非共知对象设计。以基于摄像头的车辆基础设施协同感知为典型场景,生成DAIR-V2X-Seq的以摄像头为中心的协同标签,并在其上对所提出的框架进行了评估。实验结果不仅证明了该框架的有效性,而且显示了传输灵活性和对丢包的鲁棒性。此外,我们还从可能的扩展和可预见的局限性讨论了查询合作范式的利弊。从我们的角度来看,查询合作具有巨大的潜力,值得进一步探索。我们希望我们的工作能够促进合作感知研究的实际应用。计划的未来工作将包括1)适应其他协作任务,例如预测和规划,2)跨代理和时间的查询对齐,以及3)为了实用方便而进行的查询选择和压缩。


http://www.mrgr.cn/p/65352223

相关文章

猿人学内部练习平台第11题

第11题:人均会解jsl 控制台抓包可以看到,页面请求了两次 https://www.python-spider.com/challenge/11 第一次返回了一段js代码,第二次返回了所需数据:对比两次请求参数发现,只有cookie中的__jsl_clearance发生了变化,其他参数均相同,因此该值应该是第一次返回的js生成…

自动化机器学习流水线:基于Spring Boot与AI机器学习技术的融合探索

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方向…

Azure AKS集群监控告警表达式配置

背景需求 Azure AKS集群中,需要对部署的服务进行监控和告警,需要创建并启用预警规则,而这里怎么去监控每个pod级别的CPU和内存,需要自己写搜索查询 解决方法 搜索和查询的语句如下,需要自己替换其中的部分信息,其中…

SpringCloud系列(5)--SpringCloud微服务工程公共部分提取

前言:在上一章节中我们创建了两个个SpringCloud工程,但在两个工程中分别存在着一些重复的部分,例如重复的实体类(如图所示),这样会造成系统的冗余,所以我们需要把公共的类提取到一个工程里&…

ubuntu22.04搭建dns内网

近期,需要在无网络的ubuntu环境下搭建内部可用的dns内网,总共花费3个工作日晚上,总算成功搭建,做个记录,记录踩坑记录,同时方便以后翻阅。 安装软件包: 有网络环境下,比较简单&…

Echarts-知识图谱

Echarts-知识图谱 demo地址 打开CodePen 效果 思路 1. 生成根节点 2. 根据子节点距离与根节点的角度关系,生成子节点坐标,进而生成子节点 3. 从子节点上按角度生成对应的子节点 4. 递归将根节点与每一层级子节点连线核心代码 定义节点配置 functio…

时序约束学习拓展(二):I/O约束笔记 + BUFIO IDDR协调方法

参考: https://cloud.tencent.com/developer/article/1652378 FPGA 静态时序分析与约束(1)_分析建立时间是否满足时序要求时要使用慢速模型;分析保持时间是否满足时序要求时-CSDN博客 放置失败问题: 在 Zynq7045 FPGA 中通过IDELAYE2驱动 BUFIO (xilinx.com)[Place 30-512]…

x86 64位的ubuntu环境下汇编(无优化)及函数调用栈的详解

1. 引言 为了深入理解c&#xff0c;决定学习一些简单的汇编语言。使用ubuntu系统下g很容易将一个c的文件编译成汇编语言。本文使用此方法&#xff0c;对一个简单的c文件编译成汇编语言进行理解。 2.示例 文件名&#xff1a;reorder_demo.cpp #include<stdio.h>typede…

aspnetcore插件开发dll热加载

该项目比较简单,只是单纯的把业务的dll模块和controller的dll做了一个动态的添加删除处理,目的就是插件开发。由于该项目过于简单,请勿吐槽。复杂的后续可以通过泛型的实体、dto等做业务和接口的动态区分。 项目结构如下: 上面的两个模块是独立通过dll加载道项目中的 rep…

Python浅谈清朝秋海棠叶版图

1、清朝疆域概述&#xff1a; 清朝是我国最后一个封建王朝&#xff0c;其始于1616年建州女真部努尔哈赤建立后金&#xff0c;此后统一女真各部、东北地区。后又降服漠南蒙古&#xff0c;1644年入关打败农民起义军、灭南明&#xff0c;削三藩&#xff0c;复台湾。后又收外蒙&am…

day07 51单片机-18B20温度检测

18B20温度检测 1.1 需求描述 本案例讲解如何从18B20传感器获取温度信息并显示在LCD上。 1.2 硬件设计 1.2.1 硬件原理图 1.2.3 18B20工作原理 可以看到18B20有两根引脚负责供电&#xff0c;一根引脚负责数据交换。18B20就是通过数据线和单片机进行数据交换的。 1&#xf…

zabbix监控安装文档

Zabbix安装部署文档https://blog.csdn.net/m0_56055257/article/details/131260948以上文档可以直接复制内容部署,写的非常好用在本教程中,展示如何在 CentOS 8 / RHEL 8 / Oracle Linux 8 / Alma Linux 8/ Rocky Linux 8 上安装最新的 Zabbix 6.4 版本。1、基本配置1.0关闭防…

ansible作业

ansible作业 0.ansible了解 roles:多个角色的集合目录, 可以将多个的role,分别放至roles目录下的独立子目录中,如下示例 roles/mysql/nginx/tomcat/redis/默认roles存放路径/root/.ansible/roles /usr/share/ansible/roles /etc/ansible/rolesroles目录结构: playbook1.yml…

使用composer开发自己的扩展包

前言 日常的开发中我们经常用到composer去安装其他人封装好的扩展包&#xff0c;如果你有好的功能代码想分享给其他人使用&#xff0c;就可以使用composer打包成扩展包。其他人用composer安装后就可以使用你的扩展包了。这篇文章教你如何打包自己的composer扩展包。 1.新建仓…

【JAVA】PO、VO、DAO、BO、DTO、POJO你分得清吗?

在Java开发中&#xff0c;PO、VO、DAO、BO、DTO、POJO这些词汇是比较常见的&#xff0c;每个术语都有其特定的含义和用途。下面是它们的具体区别&#xff1a; 名称简要概况用途和特定PO (Persistence Object) 持…

【汇编语言】直接定址表

【汇编语言】直接定址表 文章目录 【汇编语言】直接定址表前言一、移位指令移位指令过程逻辑移位指令shl 和 shr 二、操作显存数据显示的原理显示缓冲区的结构显示信息的一种“直接”方式 三、描述内存单元的标号关于标号去了冒号的数据标号数据标号同时描述内存地址和单元长度…

实验一———美团APP

墨刀、Axure、Mockplus等原型设计工具优缺点分析: 一、墨刀 优点:在轻量级的移动端原型制作更加迅速,展示更加方便。 缺点:价格较贵,不能画流程图,相对于其他两款功能还不是很全面;应用局限性,专注于app原型设计,在后台和网页稍有乏力;归档能力不足,更倾向于链接、二…

LLM学习(5)——系统评估与优化

5.1 如何评估 LLM 应用 5.1.1 验证评估的一般思路 通过不断寻找Bad Case并进行针对性优化,将这些案例逐步加入验证集,形成一个具有一定样本数量的验证集。针对这种验证集,逐个进行评估变得不切实际,需要一种自动评估方法来对整体性能进行评估。验证迭代是构建以LLM为核心的…

1张图片+3090显卡微调Qwen-VL视觉语言大模型(仅做演示、效果还需加大数据量)

原项目地址&#xff1a;https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md 环境本地部署&#xff08;见之前博文&#xff09; 【本地部署 】23.08 阿里Qwen-VL&#xff1a;能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存) 一、数据集格式说明 …

ESLlint重大更新后,使用旧版ESLint搭配Prettier的配置方式

概要 就在前几天&#xff0c;ESLint迎来了一次重大更新&#xff0c;9.0.0版本&#xff0c;根据官方文档介绍&#xff0c;使用新版的先决条件是Node.js版本必须是18.18.0、20.9.0&#xff0c;或者是>21.1.0的版本&#xff0c;新版ESLint将不再直接支持以下旧版配置(非扁平化…