当前位置：首页 > news >正文

《DATE: Domain Adaptive Product Seeker for E-commerce》中文校对版

news 2026/1/12 15:54:43

系列论文研读目录

文章目录

系列论文研读目录
摘要
1.引言
2.相关工作
- 2.1.视觉检索
- 2.2.视觉定位
- 2.3.无监督域自适应
3.提出Date
- 3.1.问题公式化
- 3.2.语义聚合特征提取器
- 3.3.合作的搜索者
- 3.4.动态知识转移
- 3.5.训练和测试
4.实验
- 4.1.我们的产品搜索数据集
- 4.2.评估指标
- 4.3.性能比较与分析
- 4.4.消融研究
- 4.5.特征可视化
- 4.6.定性分析
5.结论

摘要

产品检索（PR）和产品定位（PG），旨在分别根据文本查询寻找图像和对象级的产品，为了更好的购物体验近年来引起了极大的兴趣。由于相关数据集的缺乏，我们从淘宝商城和Live两个领域收集了两个大规模的基准数据集，分别包含约474 k和101 k的图像-查询对用于PR，并为PG手动标注每个图像中的对象边界框。由于标注框昂贵且耗时，我们尝试将知识从标注的领域转移到PG的未标注领域，以实现无监督的领域自适应（PG-DA）。提出了一个领域自适应产品搜索框架，将PR和PG看作不同层次的产品搜索问题，以辅助产品的查询。具体而言，我们首先为每一个模态设计一个语义聚合的特征提取器，以获得集中和全面的特征，为后续的高效检索和细粒度的接地任务。然后，我们提出了两个合作的搜索者，同时搜索PR和PG的产品定位的图像。此外，我们设计了一个域对齐PG-DA，以减轻单峰边缘和多模态的条件分布之间的源域和目标域的移动，并设计了一个伪框生成器，以动态地选择可靠的实例，并生成边界框进一步的知识转移。大量的实验表明，我们的数据在完全监督的PR，PG和无监督的PG-DA中取得了令人满意的性能。我们的脱敏数据集将在这里公开https://github.com/Taobao-live/Product-Seeking。

1.引言

如今，随着电子商务和直播的快速发展，消费者可以在电子商城或各种直播平台上享受购物。虽然可以在屏幕上展示和购买各种产品的事实给我们带来了方便，但我们沉浸在这个繁杂的产品世界中。因此，针对产品（PR）的跨模态检索[1，3，15，21，41，43，55]，旨在基于文本查询寻找对应的图像，对于提升整体产品搜索引擎和提升消费者的购物体验具有重要意义。
此外，如果对象级产品可以根据查询定位在目标产品图像或直播间图像上，这将有助于消费者关注所需的产品，也有利于下游的视觉到视觉检索。我们将这个有趣的任务命名为产品接地（PG），就像视觉接地一样[29，36，40，45，56]。通常，PR和PG被看作是两个独立的任务，但我们考虑挖掘PR和PG的共性，并将它们分别视为图像级和对象级的产品搜索。同时设计了一个统一的架构来同时解决PR和PG，这比单独的方法更节省时间和内存。
在这里插入图片描述

图1.从淘宝商城和Live收集的两个数据集上的产品检索（PR）和接地（PG）问题的图示。(1)给定一个文本查询（即产品的中文标题或描述），PR是从图库中查找对应的图像级产品，而PG是从图像中查找对象级产品。(2)进一步研究了PG-DA算法，该算法在多模态领域间隙的影响下，将知识从标注的源领域转移到未标注的目标领域，从而实现无监督的PG.

为了研究具有实际应用价值的PR和PG，我们收集了淘宝商城和淘宝直播两个大规模的Product Seeking基准数据集TMPS和TLPS，分别包含约47.4万个图像-标题对和10.1万个框架-描述对，并对图像中对象级产品的位置进行了人工标注。针对标注产品边界框耗时且代价高昂的问题，探讨如何将标注领域的知识转移到未标注领域，实现领域自适应环境下的无监督PG（PG-DA）。因此，我们提出了Domain Adaptive Product Seeker（DATE,领域自适应产品搜索器），以解决具有挑战性的PR，PG和PG-DA问题的以下方面。
首先，由于商场和现场场景的复杂性，图像和查询的区分表示是准确定位对象的先决条件。考虑到传统的CNN难以实现长距离关系推理和全面理解，我们利用并改进了Swin-TF [37]来提取分层和全面的特征。由于大规模图像搜索对PR的要求很高，因此确保搜索推理的成本很低至关重要。因此，我们将[REP]令牌注入SwinTF以吸收加权的全局语义，并将它们压缩到单个向量中，该向量将具有区分性和集中性，以便进行高效的图像查找。我们执行相同的语义聚合技术的查询特征提取。
其次，PR和PG都需要具有宏观图像搜索和微观细粒度目标搜索的能力。因此，我们提出了两种协作搜索器，其中图像搜索器计算PR的视觉和文本集中特征之间的余弦相似度，和目标搜索器基于交叉-模态交互Transformer通过对PG的综合特征直接预测产品的坐标，验证了这种方法的合理性合作策略。
第三，由于图1所示的两个数据集之间的域间隙，直接将模型应用于目标域测试将导致PG-DA的性能严重退化。据我们所知，这是第一个在域适应设置中考虑无监督视觉基础的工作，大多数单模态DA [8，34，38]和多模态DA [5，7]方法不直接适用于我们复杂的目标搜索。为此，设计了一种基于最大平均离散度的领域对齐器，通过最小化源领域和目标领域之间的单峰边缘分布和多峰条件分布差异来对齐领域，并设计了一个动态的伪包围盒生成器来选择目标领域中的相似实例，生成可靠的知识传递框。
综上所述，本文的主要贡献如下：（1） 我们收集并人工标注了PR和PG两个大规模的基准数据集，具有很大的实际应用价值。(2) 我们提出了一个统一的框架，语义聚合的特征提取器和合作的搜索者，同时解决全监督PR和PG。(3) 我们探索了领域自适应设置中的无监督PG，并设计了多模态领域对齐器和动态框生成器来传递知识。(4) 我们进行了大量的实验，结果表明，我们的方法在全监督PR，PG和无监督PG-DA中取得了令人满意的性能。

2.相关工作

2.1.视觉检索

给定一个文本查询，视觉检索（VR）[1，3，21，41，43，55]的目的是在库中找到相应的图像/视频。基于公共潜在空间的方法[1，55]已经证明了它们的有效性，该方法首先提取视觉和文本特征并将其映射到公共潜在空间中以直接测量视觉语言相似性。典型地，[16]应用CNN和RNN分别对图像和句子进行编码，并基于排名损失学习图像-标题匹配。[55]提出了一种语义图，以生成多层次的视觉嵌入和聚合结果的层次结构的整体跨模态相似性。最近，Transformer [46]在自然语言处理[12，20]，计算机视觉[4，13，25，26，28]和多模态区域[23，24，27，33，48，50-52]方面表现出比以前的架构更好的性能，特别是对于全局信息理解。毫不奇怪，人们越来越多地将这些强大的模型重新用于VR [1，17，31，57]。他们使用Transformer学习联合多模态表示，并对详细的跨模态关系建模，取得了令人满意的性能。

2.2.视觉定位

视觉基础（VG）[29，36，40，45]的研究范式与视觉检索（VR）类似，都是根据文本查询在视觉信号中寻找最佳匹配部分。与虚拟现实相比，对图像的细粒度内部关系进行建模对于VG来说更有意义。在早期的工作中，两阶段方法[6，22，53]被广泛使用，首先生成候选对象建议，然后利用语言描述来选择最相关的对象，通过利用现成的检测器或建议生成器来确保召回。然而，计算密集型的建议生成是耗时的，并且也限制了这些方法的性能，一阶段方法[32，49]集中于直接定位所引用的对象。具体来说，[49]将语言特征融合到视觉特征映射中，并以滑动窗口的方式直接预测边界框。最近，[10]将VG重新表述为坐标回归问题，并应用Transformer来解决它。
通常将VR和VG视为两个独立的问题。本文挖掘了这两个问题的共性，设计了一个基于协同搜索的统一架构，有效地解决虚拟现实和虚拟样机问题。
在这里插入图片描述

图2.DATE概述。(a)是特征提取器，应用语义聚合变换器来获得图像和查询特征。(b)为协同寻的器，计算相似度为PR寻的图像，预测坐标为PG寻的目标。©包括用于最小化源域和目标域之间的分布发散的域对齐器和用于选择可靠实例并生成用于PG-DA中的知识转移的边界框的伪框生成器。

2.3.无监督域自适应

无监督领域自适应（UDA）的目标是将知识从标注的源领域转移到未标注的目标领域，其难点在于如何克服领域间隙的影响。在单模态任务应用中，已经探索了几种UDA技术，包括对准跨域特征分布[18，34]、应用对抗学习策略[2，38]或重构方法[8]以获得域不变特征。并且[9]使用最优传输来估计两个分布之间的差异，并利用来自源域的标签。与上述工作不同，我们的任务本质上是跨模态的，由于不同模态之间的异质性差距，这更具挑战性。在多模态领域，很少有研究工作考虑到UDA，[5]研究了面向视觉问答的跨数据集自适应，[7]研究了基于伪标记算法的视频文本检索。据我们所知，这是第一次在领域适应设置中考虑无监督视觉接地的工作。
在这里插入图片描述

图3.多模态域校准器。

3.提出Date

3.1.问题公式化

本文研究了全监督的PR和PG，以及无监督的PG-DA在域自适应环境中的应用。接下来，我们将对它们进行阐述。
PR和PG。我们收集一个完全注释的数据集 ${V，Q，O\}$ ，给定查询集 $Q$ 中的文本查询 $Q_i$ ，PR和PG旨在从整个图像库 $V$ 中寻找图像级产品 $V_{Q_i}$ ，并从匹配的图像 $V_{Q_i}$ 中寻找对象级产品 $O_{Q_i}$ 。 $O$ 是边界框注释。
PG-DA. 我们可以访问完全注释的源域 $S =\{ V^S，Q^S，O^S\}$ ，以及没有框注释 $O^T$ 的未注释的目标域 $\mathcal{T}=\left\{V^{T},Q^{T}\right\}$ 。PG-DA的目标是将知识从 $S$ 转移到 $\mathcal{T}$ ，并在 $\mathcal{T}$ 上寻求对象级产品。

3.2.语义聚合特征提取器

如图2（a）所示，对于这两种设置，我们共享特征提取器，该特征提取器可以聚合用于图像搜索的每个模态的全局语义，以及捕获用于对象搜索的全面和上下文感知的特征。
图像流。给定RGB图像 $v$ ，我们首先将其分割成不重叠的块，然后我们参考Swin-TF [37]进行分层特征提取。Swin主要通过面片合并模块和Swin Transformer模块的堆栈实现4级编码，每级分辨率减半，获得层次化特征。原始Swin-TF算法利用平均池来获取图像表示向量，忽略了每个特征点在语义提取中重要性的差异。为了提高算法的性能，在第四阶段，在视觉标记序列的前面添加一个可学习的[REP]标记，它参与了自注意的计算，并吸收了加权后的全局图像特征。在第四阶段之后，我们得到了语义聚合的视觉特征，并将这种视觉编码器命名为SA-Swin。然后应用线性层将它们投影到d维得到 $V_{SA} = [V_{rep}，\bm{V}] ∈ R^{d×(1+N_v)}$ ，其中 $N_v$ 是视觉标记的数目， $V_{rep}$ 和 $\bm{V}$ 分别是集中和综合的特征。
查询数据流。给定一个文本查询 $q$ ，我们首先将其拆分为字符级序列，并将每个字符转换为一个单热点向量。然后，在嵌入层中将每个单热向量标记为一个稠密语言向量。类似于图像流，我们在标记化的查询序列前附加一个[REP]标记来聚合全局语义。请注意，视觉和文本[REP]标记对于各自的聚合是独立的。接下来，我们将所有的标记放入一个文本Transformer中，以产生语义聚合查询特征。然后我们将它们作为图像流投影到公共空间维度 $d$ 中，以获得 ${\bm Q}_{S A}\:=\:\left[ Q_{r e p},\bm Q\!\right]\in\:{ R}^{d\times(1+N_{q})}$ ,其中 $N_q$ 是文本标记的数量。

3.3.合作的搜索者

在获取了公共空间图像特征 $\bm V_{SA} = [V_{rep}，\bm V]$ 和查询特征 $\bm Q_{SA} = [Q_{rep}，\bm Q]$ 后，如图2(b)所示，设计了两个协同导引头搜索匹配图像，并在该图像上定位目标。接下来，我们将描述两位求知者的责任。
PR的图像搜索器。图像搜索器的目标是搜索与查询相对应的图像。我们可以直接计算集中特征 $V_{rep}$ 和 $Q_{rep}$ 之间的余弦距离来度量图像和查询之间的相似度，这对于搜索最相似的项目是省时的，并且确保了搜索推理的代价是微不足道的。给定在训练期间具有B个图像-文本对的批次B，我们计算文本到视觉的相似度为

在这里插入图片描述
其中 $p^{q2v}(q)$ 是文本到视觉的概率分布， $l$ 是可学习的logit缩放参数， $s (\cdot,\cdot)$ 表示余弦相似性， $m$ 表示用于细化[14]之后的相似性分布的先验矩阵， $τ$ 表示温度超参数。对于我们数据集上的产品检索，查询（产品的标题或描述）也可以通过图像检索，视觉到文本的相似度为 $p^{v21}(v)$ 。然后，我们将批次中的匹配对视为阳性，并且将所有其他成对组合视为阴性，因此图像寻找损失可以作为

在这里插入图片描述
PG的目标搜索器。与图像搜索器不同，目标搜索器的目标是将微观目标级的产品定位在图像上，需要更充分的图像查询交互和细粒度搜索。因此，我们利用全面的图像和查询特征 $V$ 和 $Q$ 进行对象搜索。我们考虑应用一个Transformer来充分融合跨模态的token，为了学习如何在交互过程中定位产品，我们首先附加一个可学习的具有视觉和文本特征的token： $\bm T_{{ O}}\ =\left[{{T}}_{loc},\,\bm{V},\,\bm Q\right]\ \in \ { R}^{d\times(1+N_{{\cal v}}+N_{{\cal q}})}$ .然后，我们应用一个跨模态的对象搜索Transformer，通过执行模态内和模态间的语义交互，将 $T_O$ 嵌入到一个公共空间中。此外，我们在每个Transformer编码器层的输入中加入了可学习的模态类型嵌入和位置嵌入。
我们利用来自对象查找Transformer的标记 $f_{loc}$ 的输出状态，并将回归模块附加到它以预测4维框坐标。此外，为了消除尺度问题的影响，我们通过图像的尺度对地面真值框的坐标进行标准化，并执行对象寻找损失为

在这里插入图片描述
其中 $G (\cdot,\cdot)$ 是GIoU损失[44]， $b = (x ， y ， w ， h)$ 和 $\hat{b } =(x，y，w，h)$ 是我们的预测，分别表示归一化的真实框。
到目前为止，PR和PG可以通过两个搜索者的合作同时解决，我们的合作搜索损失是

在这里插入图片描述
其中 $λ_{co} ∈ \mathbb{R}$ 是衡量两个损失的超参数。

3.4.动态知识转移

如图2(a)所示，我们设计了一个PG-DA的知识转移方法，包括一个域对齐器来缓解特征分布偏移和一个动态伪框生成器来促进转移。
域对齐器。如3.3节所述，我们从S域提取视觉特征 $\bm V^{S}_{SA} = [V^{S}_{rep}，\bm V^{S}]$ 和文本特征 $\bm Q_{S A}^{S}=[Q_{r e p}^{S},\bm Q^{S}]$ ，并以同样的方式从 $τ$ 域获取 $\bm V_{S A}^{T}~=~[V_{r e p}^{T},\bm V^{T}]$ 和 $\bm Q_{S,A}^{T}\:=\:\left[Q_{r e p}^{T},\bm Q^{T}\right]$ 。为了缓解域差异，我们设计了一种基于最大平均差异（MMD）的比对方法，它通过将每个分布嵌入到具有核函数的再生核希尔伯特空间（RKHS） ${\mathcal{H}}$ 中来比较两个分布。我们使用多个高斯径向基函数核作为 $\phi$ 。给定分别来自单峰源和目标域的两个边缘分布 $P_{X^S}$ 和 $P_{X^T}$ ，MMD可表示为

在这里插入图片描述
为了使用RKHS中的核函数 $\phi$ 来计算向量的内积，我们将MMD平方为

在这里插入图片描述
然后，我们可以通过 $MMD^2_{uni}$ (如下）最小化来自不同域的视觉特征分布之间的距离，

其中 $µ (\cdot)$ 计算令牌维度上 $\bm V$ 的平均值。以同样的方式，我们计算文本特征的 $\mathcal{L}_{DisQ}$ 。然后，我们可以获得域不变特征。
除了单峰边缘分布的差异之外，我们还计算多峰条件分布散度来调整输出分布以获得更好的适应性，并且MMD计算的形式变为
在这里插入图片描述
具体地，我们从两个域的对象查找Transformer的输出中取出[LOC] token $f^{S}_{loc}$ 和 $f^{T}_{loc}$ ，并最小化 $MMD^2_{mul}$ 以减少来自不同域的输出特征分布的距离，

总域对齐损失函数如下

其中 $λ_{Dv} ,λ_{Dq}∈ \mathbb{R}$ 是衡量损失的超参数。

动态伪框生成器。为了进一步将知识从 $S$ 转移到 $\mathcal{T}$ ，我们尝试由 $S$ 上的模型生成伪包围盒来训练 $\mathcal{T}$ 上的模型。然而，源模型不可能精确地对所有数据进行装箱，这可能会导致性能不令人满意。因此，来自 $T$ 的接近 $S$ 的实例被选择是相对可靠的。为了更精确地进行选择，我们计算两个数据集之间的实例相似度，而不是批次之间的实例相似度。因此，给定数据集 ${V^S，Q^S\}$ 和 ${V^T，Q^T\}$ ，我们计算每个模态中每对 ${V^S，V^T\}$ 和 ${Q^S，Q^T\}$ 的语义聚合提取器编码的特征的余弦得分，以获得相似性矩阵 $M_V$ 和 $M_Q$ ，并将它们加到 $M\ \in\ [-1,1]^{{N}_{S}\times N_{T}}$ ，其中 $N_S$ 和 $N_T$ 分别是源数据集和目标数据集的长度。接下来，我们基于超过相似性阈值 $θ$ 的计数来对目标实例进行排序，并且选择前 $k$ 个百分比的高分实例 ${V^{T′}，Q^{T′}\}$ 。然后，由源寻的器生成伪框 $\widetilde{b}^′$ ，由目标寻的器预测坐标 $b^′$ 。与等式4、我们执行的伪客体的寻找损失为

在这里插入图片描述
我们在执行框生成之后的每个epoch计算 $M$ ，并且所选择的实例被动态更新。随着知识转移的不断进行，更多的实例可以被正确标记，超参数比率 $k$ 将增加。总知识转移损失函数如下

在这里插入图片描述
其中 $λ_{PO} ∈ \mathbb{R}$ 是衡量损失的超参数。

3.5.训练和测试

完全监督的PR和PG。我们使用 $\mathcal{L}_{coop}$ 进行训练，PR使用图像搜索器搜索产品图像，PG在测试过程中直接使用目标搜索器预测产品在图像上的坐标。
无监督PG-DA。我们分三个阶段训练模型。首先，我们通过 $\mathcal{L}_{stage_1}=\mathcal{L}_{ObjS}$ 在S域上的全监督设置下预热我们的模型。接下来，我们对 $S$ 和 $T$ 执行 $\mathcal{L}_{s t a g e_{2}}\,=\,\lambda_{O}\mathcal{L}_{O b j S}\,+\,\mathcal{L}_{D A}$ 以减少域间隙。然后，我们执行动态框生成，并添加 $\mathcal{L}_{PO b j S}$ 为 $\mathcal{L}_{s t a g e_{3}}\,=\,\lambda_{O}\mathcal{L}_{O b j S}\,+\,\mathcal{L}_{KT}$ ，以进一步传递知识。我们以与PG相同的方法在 $\mathcal{T}$ 域上测试模型。

在这里插入图片描述

表1.在我们的TMPS和TLPS数据集上进行产品检索（文本到视觉）。

在这里插入图片描述

表2.在我们的TMPS和TLPS数据集上的产品定位性能。

在这里插入图片描述

表3.产品定位-DA在我们的数据集上的性能。（L→M表示我们将知识从TLPS转移到TMPS。而F、W、U分别代表完全监督、弱监督、无监督。）

4.实验

4.1.我们的产品搜索数据集

我们收集了淘宝商城和淘宝直播两个大规模的商品搜索数据集，分别包含约474 k的图像-标题对和101 k的框架-描述对。它们是涉及跨模式接地的前两个基准电子商务数据集。对于TMPS，每个产品项目对应于一个标题，三个级别的类别和多个显示的图像与手动注释的边界框。对于TLPS，我们从直播视频流中的直播者收集帧和描述，并注释所描述产品的位置。请注意，我们数据集中的语言主要是中文。关于我们数据集的基本统计数据见附录A.1。我们可以看到我们的数据集的类别是多样化的，图像的数量是现有数据集的数十倍。在收集之后，我们将每个数据集以8：1：1的比例分成训练/验证/测试集，并确保每个产品都被隔离在一个集中。

4.2.评估指标

产品定位。根据[6]，我们通过mIoU（并集上的平均交集）和精度（如果预测对象的IoU与地面真实值框大于0.5，则预测对象为真阳性）来衡量性能。
产品检索。我们使用标准检索指标（见[1，57]）来评估文本到视觉（t2 v）检索和视觉到文本（v2 t）检索。我们通过R@K来衡量基于排名的绩效。

4.3.性能比较与分析

为了评估DATE的有效性，我们将其与各种相关方法进行了比较（我们的方法的更多详细信息见附录A.2）。对于每个任务，我们使用未经训练的模型来预测结果，作为随机方法来感知任务的难度。
产品检索。我们重新实现了这些典型的跨模态检索方法，以与我们的DATE进行比较。
1)VSEpp [16]，分别基于CNN和RNN的编码方法。
2)ViLT [31]，一种基于Transformer的联合编码方法。

产品定位。除了上述的跨模态检索基线，我们重新实现了这些经典的视觉基础基线，以与我们的DATE进行比较。
1)MAttNet [53]，一个两阶段模型。
2)FAOA [49]，一个单阶段模型。
3)TransVG [10]，Transformer架构下基于回归的模型。

PR和PG结果分别见表1和表2。我们可以看到（1）两个任务的随机结果都很低，表明我们的PR和PG具有挑战性。(2)所提出的DATE的性能大大优于所有基线，表明我们的方法对PR和PG的有效性。（3）虽然TransVG和ViLT的性能稍落后于我们，但它们是两个独立的模型，我们的方法在统一的架构下更省时和节省内存。
无监督的产品接地-DA。为了验证我们的DA设置中的日期的有效性，我们进一步重新实现这些典型的弱监督VG基线进行比较。
1)ARN [35]，一种基于重建的模型。
2)MAF [47]，基于对比度的模型。

对于DA设置，我们将这些方法作为比较的基线。
1)仅限源，将在源域上训练的模型应用于目标数据集上的直接测试。
2)MMD-uni，它只利用MMD损失来最小化视觉和文本特征的单峰边缘分布距离。
3)伪标签，它完全基于在源域上训练的模型生成的伪框标签来在目标域上训练模型。

结果如表3所示，我们可以提炼出以下观察结果：（1）我们的无监督日期显著优于所有弱监督方法和全监督方法FAOA，表明知识已有效地转移到目标领域。(2)仅源方法由于两个域之间的巨大语义差距而严重退化性能，而MMD-uni由于跨域差异未能充分减少而仅获得轻微改善。(3)伪标签增强了有限的性能，因为许多坏的实例被错误地标记，这会误导模型，而我们的DATE可以动态地选择实例并生成可靠的边界框，用于传输和提升性能。

4.4.消融研究

在本节中，我们研究了不同的视觉特征提取器，文本选项（附录A.3）和表4中的合作寻求策略的影响。
视觉特征提取器。我们将我们的SA-Swin与ResNet，DETR，Swin和SA-DETR方法进行了比较，其中ResNet，DETR和Swin分别应用ResNet-50 [19]，DETR-50 [4] Swinbase [37]来提取图像特征，并利用PR的平均池化特征并将平坦化的最后一个特征图作为令牌馈送到PG的对象查找Transformer中。SA-DETR与PG的前几种方法执行相同的方式，但是像SA-Swin执行的那样从PR开始就注入语义聚合的令牌。从表4的结果中，我们可以发现以下有趣的点：（1）Swin优于ResNet和DETR，说明分层Transformer可以提取更好的视觉特征。(2)SA-DETR在协同训练过程中的表现优于Swin，Swin具有更强大的特征提取能力，表明我们设计的语义聚合编码器可以提取集中和全面的特征，用于PR和PG的后续协同搜索。
寻求合作策略。我们进行消融实验如下：w/o Rep：使用两个模态特征的平均池进行图像搜索（PR），而不是[REP]标记。w/o ObjS：去除对象搜索Transformer，并应用MLP来融合视觉和文本[REP]标记以用于对象搜索; w/o Rep&ObjS：使用平均池化特征用于图像和对象搜索两者。从表4中，我们观察到在移除[REP]或ObjS之后性能急剧下降。分析：（1）加权向量（即[REP] token）比平均池化可以提取更多的图像和查询的区分表示，证实了我们的语义聚合特征提取器的有效性。(2)w/o Rep实验结果表明，虽然[REP]不参与目标搜索，但目标搜索的性能会下降，这表明这种不利的图像搜索方法在多任务学习中会拖累目标搜索。(3)在w/o ObjS模型中，图像层和对象层的查找福尔斯落在[REP]标记的肩膀上，这对两层查找都是不利的。以上两点证明了我们设计的合作搜索策略的合理性。

4.5.特征可视化

为了帮助证明我们的日期的有效性，我们通过图4中的TMPS→TLPS的T-SNE可视化视觉和文本特征，通过仅源基线和我们的日期方法获得。我们可以观察到源域和目标域之间的转移是明显的，同时在两个域中存在重叠，这是合理的，因为淘宝商城和Live中的一些场景是相似的。使用我们提出的方法，两个域的特征分布差异显着变窄，表明我们的方法有效地对齐了两个域。
在这里插入图片描述

图4.视觉和文本特征的T-SNE可视化。

在这里插入图片描述

图5.从TMPS数据集采样的产品回收定性结果（绿色：正确，红色：不正确）。

4.6.定性分析

为了定性研究我们的DETA的有效性，我们比较了ViLT和我们的DATE的PR，如图5所示。我们可以发现，图像级产品可以通过我们的DATE精确地找到，而ViLT直到Rank3才能找到正确的图像。此外，整个top4检索结果的日期是更相关的文本查询比结果从ViLT，这说明多模态语义理解和交互是足够的，通过我们的日期。更多示例和定性分析见附录A.4。

5.结论

探讨了领域自适应环境下的全监督产品检索与扎根（PR and Grounding，PG）和无监督PGDA。在研究过程中，我们收集了两个大规模的基准数据集TMPS和TLPS，并针对PR和PG进行了人工标注。我们提出了一个包含语义聚合特征提取器、高效的协作搜索器、多模态域对齐器和伪包围盒生成器的DATE框架，以有效地解决我们的数据集上的问题。我们将发布脱敏数据集，以促进产品检索、产品接地和多模态领域适应的研究。在未来，我们将考虑更具体的技术，如光学字符识别（OCR）和人机交互（HOI），以进一步提高性能的PR和PG。

查看全文

http://www.mrgr.cn/news/48880.html