【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

news/2024/5/19 4:02:48

文章目录

  • 一、检测相关(5篇)
    • 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
    • 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
    • 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
    • 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
    • 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
  • 二、分割|语义相关(5篇)
    • 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
    • 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
    • 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
    • 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
    • 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

一、检测相关(5篇)

1.1 TALL: Thumbnail Layout for Deepfake Video Detection

Tall:用于深度假冒视频检测的缩略图布局

https://arxiv.org/abs/2307.07494

在这里插入图片描述
deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该策略将视频片段转换为预定义的布局,以实现空间和时间依赖性的保留。具体地,连续帧在每个帧中的固定位置被掩蔽以改善泛化,然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的,而且非常简单,只需修改几行代码即可。受Vision Transformers成功的启发,我们将TALL整合到Swin Transformer中,形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ → \to Celeb-DF上实现了90.79 % \% % AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。

1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels

基于量子核支持向量机的多光谱卫星云层检测

https://arxiv.org/abs/2307.07281

在这里插入图片描述
支持向量机(SVM)是一个成熟的分类器,有效地部署在一系列模式识别和分类任务。在这项工作中,我们考虑扩展经典的支持向量机与量子内核,并将其应用到卫星数据分析。提出了一种量子核支持向量机(混合支持向量机)的设计与实现。它包括量子核估计(QKE)程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题,这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明,模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。

1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

基于骨架的视频异常检测多模运动条件扩散模型

https://arxiv.org/abs/2307.07205

在这里插入图片描述
异常是罕见的,因此异常检测通常被框定为一类分类(OCC),即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内,并将外部的任何异常检测为异常,这令人满意地解释了异常的开放性。但是常态具有相同的开集性质,因为人类可以用几种方式执行相同的动作,这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测(VAD),它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型,以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动,并利用改进的模式覆盖能力的扩散过程中产生不同的,但似乎合理的未来运动。在对未来模式进行统计聚合时,当所生成的运动集合与实际未来不相关时,检测到异常。我们在4个已建立的基准上验证我们的模型:UBnormal、HR-UBnormal、HR-STC和HR-Avenue,广泛的实验超越了最先进的结果。

1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections

基于带跳连接的卷积神经网络的脑肿瘤检测

https://arxiv.org/abs/2307.07503

在这里插入图片描述
在本文中,我们提出了不同的卷积神经网络(CNN)的架构,使用磁共振成像(MRI)技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术,例如网络的加宽和加深以及添加跳过连接,以提高网络的准确性。结果表明,这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。

1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations

COOpD:重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测

https://arxiv.org/abs/2307.07254

在这里插入图片描述
异质性疾病的分类是具有挑战性的,由于其复杂性,多变的症状和影像学表现。慢性阻塞性肺疾病(COPD)就是一个很好的例子,尽管是第三大死亡原因,但仍被诊断不足。其稀疏,弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务,提出cOOpD:异质病理区域被检测为来自正常同质肺区域的分布外(OOD)。为此,我们采用自监督对比借口模型学习未标记肺区域的表示,可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布,并将异常(源于COPD)识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明,cOOpD在两个公共数据集上实现了最佳性能,与以前的监督最先进的技术相比,AUROC增加了8.2%和7.7%。此外,cOOpD产生可解释的空间异常图和患者水平的分数,我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。

二、分割|语义相关(5篇)

2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

SynTable:一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线

https://arxiv.org/abs/2307.07333

在这里插入图片描述
在这项工作中,我们提出了SynTable,一个统一和灵活的Python数据集生成器,使用NVIDIA的Isaac Sim Replicator Composer构建,用于生成高质量的合成数据集,用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据,如模态和模态实例分割掩模,遮挡掩模,深度图,边界框和材料属性,可以生成,以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要,同时确保数据集的质量和准确性。在这项工作中,我们讨论了我们的设计目标,框架体系结构,和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明,显着改善的性能,在模拟到真实的传输时,OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的,易于使用的,逼真的数据集生成器,用于推进深度学习和合成数据生成的研究。

2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

基于自监督学习的曲线目标分割算法

https://arxiv.org/abs/2307.07245

在这里插入图片描述
曲线对象分割对于许多应用是关键的。然而,手动注释曲线对象是非常耗时和容易出错的,产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法,该方法从分形和未标记图像(FreeCOS)中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成(FFS)模块和几何信息对齐(GIA)的方法。FFS基于参数分形L系统生成曲线结构,并将生成的结构集成到未标记的图像中,以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性,并且增强在合成图像和真实图像两者中共同的固有几何特性。此外,GIA通过预测空间自适应损失(PSAL)和曲线掩模对比损失(CMCL)对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果,即,XCAD,DRIVE,STARE和CrackTree表明,我们的方法优于最先进的无监督方法,自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。

2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation

自适应区域选择在整体幻灯片图像语义分割中的主动学习

https://arxiv.org/abs/2307.07168

在这里插入图片描述
为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像(WSIs)的过程是耗时的。基于区域的主动学习(AL)涉及在有限数量的注释图像区域上训练模型,而不是请求整个图像的注释。这些注释区域被迭代地选择,其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量,然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择(即,区域大小和每个WSI的所选区域的数量的组合),以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术,用于自适应地选择注释区域,减轻对这个AL超参数的依赖。具体来说,我们动态地确定每个区域,首先确定一个信息区域,然后检测其最佳的边界框,而不是选择一个统一的预定义的形状和大小的区域,在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法,并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释,我们实现了完整的注释性能,从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。

2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation

AnyStar:域随机化通用星凸3D实例分割

https://arxiv.org/abs/2307.07044

在这里插入图片描述
星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练,这需要大量且通常不切实际的手动注释工作。此外,当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时,需要显著的重新设计或微调。我们提出了AnyStar,这是一个域随机生成模型,它模拟具有随机外观,环境和成像物理的斑点状对象的合成训练数据,以训练通用的星凸实例分割网络。因此,使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶,所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。

2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

用于健壮体积医学分割的频域对抗性训练

https://arxiv.org/abs/2307.07269

在这里插入图片描述
确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能,但由于这些模型容易受到对抗性攻击,因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型,并证明其优势,传统的输入或体素域攻击。使用我们提出的攻击,我们引入了一种新的频域对抗训练方法,用于优化针对体素和频域攻击的鲁棒模型。此外,我们提出了频率一致性损失来调节我们的频域对抗训练,从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。


http://www.mrgr.cn/p/26564471

相关文章

iOS开发-NotificationServiceExtension实现实时音视频呼叫通知响铃与震动

iOS开发-NotificationServiceExtension实现实时音视频呼叫通知响铃与震动 在之前的开发中,遇到了实时音视频呼叫通知,当App未打开或者App在后台时候,需要通知到用户,用户点击通知栏后是否接入实时音视频的视频或者音频通话。 在…

计算机网络 day7 扫描IP脚本 - 路由器 - ping某网址的过程

目录 network 和 NetworkManager关系: 实验:编写一个扫描脚本,知道本局域网里哪些ip在使用,哪些没有使用? 使用的ip对应的mac地址都要显示出来 计算机程序执行的两种不同方式: shell语言编写扫描脚本 …

如何维护你的电脑:提升性能和延长使用寿命

如何维护你的电脑:提升性能和延长使用寿命 😇博主简介:我是一名正在攻读研究生学位的人工智能专业学生,我可以为计算机、人工智能相关本科生和研究生提供排忧解惑的服务。如果您有任何问题或困惑,欢迎随时来交流哦&…

在自定义数据集上微调Alpaca和LLaMA

本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA,我们将介绍在特定数据集上对Alpaca LoRa进行微调的整个过程,本文将涵盖数据处理、模型训练和使用流行的自然语言处理库(如Transformers和hugs Face)进行评估。此外还将介绍如何使用grado应用程序部署和…

高算力AI模组前沿应用:基于ARM架构的SoC阵列式服务器

本期我们带来高算力AI模组前沿应用,基于ARM架构的SoC阵列式服务器相关内容。澎湃算力、创新架构、异构计算,有望成为未来信息化社会的智能算力底座。 ▌性能优势AI驱动,ARM架构服务器加速渗透 一直以来,基于ARM架构的各类处理器…

对比CahtGPT Bard Claude2对中文的理解

对比CahtGPT Bard Claude2对中文的理解 今天简单测试了一下目前这三个很火的模型对中文的理解能力 简单问题 鲁迅和周树人的关系 Bard CahtGPT Claude 介绍一下平凡的世界这本书 Bard CahtGPT

GitHub仓库如何使用

核心:GitHub仓库如何使用 目录 1.创建仓库: 2.克隆仓库到本地: 3.添加、提交和推送更改: 4.分支管理: 5.拉取请求(Pull Requests): 6.合并代码: 7.其他功能&…

网络安全行业相关证书

一:前言 对于考证这个话题,笔者的意见是:“有比没有好,有一定更好,但不一定必须;纸上证明终觉浅,安全还得实力行”。很多人对于各种机构的考证宣传搞得是云里雾里,不知道网络安全行业…

虚拟局域网VLAN

概述 广播域 使用一个或多个以太网交换机互连接起来的交互式以太网,其所有站点都属于同一个广播域,随着交换式以太网规模的扩大,广播域响应扩大,从而形成一个巨大的广播域。 但是巨大的广播域会带来很多的弊端: 广…

Ubuntu 放弃了战斗向微软投降

导读这几天看到 Ubuntu 放弃 Unity 和 Mir 开发,转向 Gnome 作为默认桌面环境的新闻,作为一个Linux十几年的老兵和Linux桌面的开发者,内心颇感良多。Ubuntu 做为全世界Linux界的桌面先驱者和创新者,突然宣布放弃自己多年开发的Uni…

REST API的基础:HTTP

在本文中,我们将深入探讨万维网数据通信的基础 - HTTP。 什么是超文本? HTTP(超文本传输协议)的命名源于“超文本”。 那么,什么是超文本? 想象一下由超链接组成的文本、图像和视频的混合物。这些链接充当我…

使用TensorFlow训练深度学习模型实战(下)

大家好,本文接TensorFlow训练深度学习模型的上半部分继续进行讲述,下面将介绍有关定义深度学习模型、训练模型和评估模型的内容。 定义深度学习模型 数据准备完成后,下一步是使用TensorFlow搭建神经网络模型,搭建模型有两个选项…

Android 中 app freezer 原理详解(一):S 版本

基于版本:Android S 0. 前言 在之前的两篇博文《Android 中app内存回收优化(一)》和 《Android 中app内存回收优化(二)》中详细剖析了 Android 中 app 内存优化的流程。这个机制的管理通过 CachedAppOptimizer 类管理,为什么叫这个名字,而不…

k8s一站式使用笔记

前言 个人感觉比较磨心态,要坐住,因为细节太多,建议:一遍看个大概,二遍回来细品,不要当成任务,把握零碎时间 一、k8s安装 1、配置准备 硬件要求 内存:2GB或更多RAMCPU: 2核CPU或更…

【RabbitMQ】Linux系统服务器安装RabbitMQ

一、下载 首先应该下载erlang,rabbitmq运行需要有erland环境。 官网地址:https://www.erlang.org/downloads 下载rabbitmq 官网环境:https://www.rabbitmq.com/download.html 注意:el7对应centos7,el8对应centos8…

centos下安装ftp-读取目录列表失败-

1.下载安装ftp服务器端和客户端 #1.安装yum -y install vsftpdyum -y install ftp #2.修改配置文件vim /etc/vsftpd.conflocal_enablesYESwrite_enableYESanonymous_enableYESanon_mkdir_write_enableYES //允许匿名用户在FTP上创建目录anon_upload_enableYES //允许匿名用户…

数值线性代数: 共轭梯度法

本文总结线性方程组求解的相关算法,特别是共轭梯度法的原理及流程。 零、预修 0.1 LU分解 设,若对于,均有,则存在下三角矩阵和上三角矩阵,使得。 设,若对于,均有,则存在唯一的下三…

kotlin 编写一个简单的天气预报app(四)

编写界面来显示返回的数据 用户友好性&#xff1a;通过界面设计和用户体验优化&#xff0c;可以使天气信息更易读、易理解和易操作。有效的界面设计可以提高用户满意度并提供更好的交互体验。 增加城市名字的TextView <TextViewandroid:id"id/textViewCityName"…

matlab使用教程(5)—矩阵定义和基本运算

本博客介绍如何在 MATLAB 中创建矩阵和执行基本矩阵计算。 MATLAB 环境使用矩阵来表示包含以二维网格排列的实数或复数的变量。更广泛而言&#xff0c;数组为向量、矩阵或更高维度的数值网格。MATLAB 中的所有数组都是矩形&#xff0c;在这种意义上沿任何维度的分量向量的长度…

【英杰送书第三期】Spring 解决依赖版本不一致报错 | 文末送书

Yan-英杰的主 悟已往之不谏 知来者之可追 C程序员&#xff0c;2024届电子信息研究生 目录 问题描述 报错信息如下 报错描述 解决方法 总结 【粉丝福利】 【文末送书】 目录&#xff1a; 本书特色&#xff1a; 问题描述 报错信息如下 Description:An attempt…