当前位置: 首页 > news >正文

多模态理论基础——什么是多模态?

文章目录

  • 多模态理论
    • 1.什么是多模态(multimodal)
    • 2.深度学习中的多模态

多模态理论

1.什么是多模态(multimodal)

模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等

多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。

“下雪”场景的多模态数据(视频、图像、音频、文本)

为什么会有多模态呢?

因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。

为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。

2.深度学习中的多模态

在目前的人工智能任务中,我们所说的多模态更多的指对于 3V 任务的支持,也即 Verbal(文本)、Vocal(语音) 和 Visual(视觉)

深度学习中有很多经典的任务,都是基于这三种任务之间互相转换的。比如图像生成任务(Image Generation from Text),根据文本描述生成图像,反过来的图像描述任务(Image Captioning),根据图像来生成文本,就像是我们小学学的看图作文一样。

image-20241004102659554

参考:5分钟理解什么是多模态-CSDN博客


http://www.mrgr.cn/news/43637.html

相关文章:

  • VSCode debug模式无法跳转进入内置模块
  • STM32中断编程指南:NVIC和中断优先级
  • unity ps 2d animation 蛇的制作
  • VUE2常见问题以及解决方案汇总(不断更新中)
  • 查缺补漏----同步,异步,半同步,分离式通信
  • 服务器conda环境安装rpy2
  • 【Codeforces】CF 2007 E
  • RTR_Chapter_6 下
  • C语言 | Leetcode C语言题解之第458题可怜的小猪
  • 【WPF开发】如何设置窗口背景颜色以及背景图片
  • 深入理解CSS弹性盒子模型(Flexbox)
  • 深度学习中的结构化概率模型 - 结构化概率模型的深度学习方法篇
  • 【WPF开发】样式表基础及入门
  • 如何写好计算机毕业设计论文?【大纲+技巧+示例】
  • Python | Leetcode Python题解之第458题可怜的小猪
  • Emissive CEO Fabien Barati谈《消失的法老》背后的故事:XR大空间体验的创新与未来
  • Android 14.0 Launcher3 app图标和hotseat 添加背景(焦点选中背景)
  • STM32入门-GPIO端口的八种工作模式
  • QGIS中怎么加载数据(如矢量shp与栅格数据)
  • OS_过程调用与系统调用