当前位置: 首页 > news >正文

ViT笔记学习

1.VIT

ViT原理讲解
ViT结合代码
1.3 ViT模型架构
我们先结合下面的动图来粗略地分析一下ViT的工作流程,如下:

  • 将一张图片分成patches
  • 将patches铺平
  • 将铺平后的patches的线性映射到更低维的空间
  • 添加位置embedding编码信息
  • 将图像序列数据送入标准Transformer encoder中去
  • 在较大的数据集上预训练
  • 在下游数据集上微调用于图像分类
    在这里插入图片描述
    https://liuruiyang98.github.io/posts/2021/09/09/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B9%8B%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB-18-Vision-Transformer(ViT)%E7%BD%91%E7%BB%9C%E8%AF%A6%E8%A7%A3.html

在这里插入图片描述

2.MaskFormer

MaskFormer-github


http://www.mrgr.cn/news/2065.html

相关文章:

  • 【Word多级标题完整设置】设置各级标题样式将多级列表链接到各级标题样式中
  • python的列表与元组
  • 【每日刷题】Day104
  • 多线程【基础】
  • 设计模式---构建者模式(Builder Pattern)
  • 瑞友科技项目经理认证负责人杨文娟受邀为第四届中国项目经理大会演讲嘉宾︱PMO评论
  • 如何在Java中将数据库查询结果转换为枚举类型
  • 乾坤qiankun搭建前端微服务
  • 橙色简洁大气体育直播自适应模板赛事直播门户自适应网站源码
  • 基于Shader实现的UGUI描边解决方案遇到的bug
  • 智能安全守护,寺庙安全用电解决方案
  • 基础Floyd-Warshall算法
  • C#单例模式
  • 写一个githubDemo
  • Linux搭建环境:从零开始掌握基础操作(二)
  • 螺纹钢生产线中测径仪对基圆和负公差的测量和影响
  • ???牛客周赛55:虫洞操纵者
  • 【特殊文件---properties】
  • c语言网络编程
  • 欧拉远程桌面 安装tigervnc