当前位置：首页 > news >正文

【论文速看】DL最新进展20241016-低光增强、自动驾驶、图像分割、Diffusion

news 2026/2/8 16:05:58

【低光增强】

[ACCV 2024] LoLI-Street: Benchmarking Low-Light Image Enhancement and Beyond

论文链接：https://arxiv.org/pdf/2410.09831

代码链接：https://github.com/tanvirnwu/TriFuse

低光图像增强（LLIE）对于许多计算机视觉任务至关重要，包括目标检测、跟踪、分割和场景理解。尽管在改进欠曝光条件下捕获的低质量图像方面进行了大量研究，但对于自动驾驶车辆来说，清晰的视觉仍然至关重要，这些车辆经常在低光环境下挣扎，这表明需要持续的研究。然而，特别是对于街景而言，用于LLIE的配对数据集非常稀缺，限制了鲁棒性LLIE方法的开发。尽管使用了先进的变换器和/或基于扩散的模型，当前的LLIE方法在现实世界的低光条件下表现不佳，并且缺乏在街景数据集上的训练，这限制了它们在自动驾驶车辆中的有效性。为了弥合这些差距，本文引入了一个新的LoLI-Street（低光街景图像）数据集，包含来自发达城市街景的33k对低光和正常曝光图像，涵盖了19k个用于目标检测的对象类别。LoLI-Street数据集还特别提供了1000张真实的低光照测试图像，用于在实际生活条件下测试LLIE模型。此外，作者提出了一种基于Transformer和扩散的LLIE模型，名为TriFuse。利用LoLI-Street数据集，训练并评估TriFuse和SOTA模型以在LoLI-Street数据集上进行基准测试。通过比较各种模型，LoLI-Street数据集在不同主流数据集上的泛化可行性显而易见，显著增强了图像和对象检测效果，这对于自动驾驶和监控系统等实际应用具有重要意义。

在这里插入图片描述

【自动驾驶】

[2024] Driving with Prior Maps: Unified Vector Prior Encoding for Autonomous Vehicle Mapping

机构：阿里巴巴、西交大

论文链接：https://arxiv.org/pdf/2409.05352

代码链接：无

高精地图（HD maps）对于自动驾驶车辆的精确导航和决策至关重要，然而其创建和维护面临着显著的成本和时效性挑战。利用车载传感器在线构建HD地图已成为一种有前景的解决方案；然而，这些方法可能因遮挡和恶劣天气导致的不完整数据而受阻。本文提出了PriorDrive框架来解决这些局限性，通过利用先验地图显著增强了在线HD地图构建的鲁棒性和准确性。所提方法集成了多种先验地图，如OpenStreetMap的标准定义地图（SD maps）、供应商提供的过时HD地图以及来自历史车辆数据的本地构建地图。为了有效地将这种先验信息编码到在线制图模型中，引入了混合先验表示（HPQuery），标准化了多样化地图元素的表示。PriorDrive的核心是统一向量编码器（UVE），采用双重编码机制处理向量数据。向量内编码器捕捉细粒度的局部特征，而向量间编码器整合全局上下文。此外，提出了分段级和点级的预训练策略，使UVE能够学习向量数据的先验分布，从而提高编码器的泛化能力和性能。在nuScenes数据集上的广泛测试说明了PriorDrive与各种在线制图模型高度兼容，并显著提升了地图预测能力。通过PriorDrive框架集成先验地图为解决单一感知数据的挑战提供了一种稳健的解决方案，为更可靠的自动驾驶导航铺平了道路。

在这里插入图片描述

【图像分割】

DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

论文链接：https://arxiv.org/pdf/2409.06809

代码链接：https://github.com/KishoreP1/DetailCLIP

本文引入了DetailCLIP：一种面向细节的CLIP，以解决基于对比学习的视觉语言模型，特别是CLIP，在处理面向细节和细粒度任务（如分割）时的局限性。虽然CLIP及其变体在图像和文本表示的全局对齐方面表现出色，但它们常常难以捕捉精确分割所需的细粒度细节。为了克服这些挑战，文中提出了一种新颖的框架，该框架采用自蒸馏的patch级比较和像素级重建损失，并通过基于注意力的token移除机制进行增强。这种方法选择性地保留语义相关的标记，使模型能够专注于与特定功能对齐的关键区域，包括文本信息处理、补丁比较和图像重建，确保模型学习高级语义和详细的视觉特征。实验表明，DetailCLIP在分割准确性上超越了现有的基于CLIP和传统的自监督学习（SSL）模型，并在多样化的数据集上表现出更好的泛化能力。DetailCLIP代表了视觉语言建模领域的重要进展，为需要高级语义理解和详细特征提取的任务提供了一种稳健的解决方案。

在这里插入图片描述

【Diffusion】

[2024 高效Diffusion模型综述] EfficientDiffusion Models: A Comprehensive Survey from Principles to Practices

论文链接：https://arxiv.org/html/2410.11795v1

代码链接：https://github.com/ponyzym/Efficient-DMs-Survey

作为近年来最受欢迎和备受追捧的生成模型之一，扩散模型激发了许多研究人员的兴趣，并在各种生成任务中稳步展现出卓越的优势，如图像合成、视频生成、分子设计、3D场景渲染和多模态生成，依靠其密集的理论原则和可靠的应用实践。这些近期在扩散模型上的卓越成就主要归功于渐进式设计原则和高效的架构、训练、推理及部署方法。然而，目前还没有一个全面而深入的综述来总结这些原则和实践，以帮助快速理解和应用扩散模型。这篇综述提供了一种新的效率导向视角，主要关注架构设计中的深刻原理和高效实践、模型训练、快速推理和可靠部署，以引导进一步的理论研究、算法迁移和在新场景中的模型应用，采用读者友好的方式。

在这里插入图片描述