当前位置: 首页 > news >正文

设备上的实时自定义手势识别

这篇论文的标题是《On-device Real-time Custom Hand Gesture Recognition》,主要研究了如何在移动设备上实时识别自定义手势。以下是论文的主要内容概述:

摘要

  • 论文指出现有的手势识别系统大多限于预定义的手势集,但用户和开发者通常希望识别新的、未见过的手势。
  • 提出了一个用户友好的框架,允许用户轻松定制和部署自己的手势识别流程。
  • 框架提供了一个预训练的单手嵌入模型,可以针对自定义手势识别进行微调。
  • 用户可以在网络摄像头前进行手势,收集每个手势的少量图像。
  • 提供了一个低代码解决方案来训练和部署自定义手势识别模型,使得即使没有机器学习(ML)专业知识的用户也能使用框架。
  • 还提供了一个无代码的Web前端,供没有任何ML专业知识的用户使用。
  • 自定义手势识别(HGR)可以在设备上实时运行,通过调用开源模型推理API MediaPipe Tasks中的简单函数实现。

1. 引言

  • 手势识别在增强现实(AR)、虚拟现实(VR)、视频会议和远程控制应用中起着关键作用。
  • 论文提出了一种创新的方法,即使用预训练模型和有限的训练数据来训练准确且健壮的HGR模型。
  • 预训练模型是在大量手语视频数据集上训练的,然后对权重进行微调以用于自定义手势分类。

2. 架构

  • 使用了“On-device Real-Time Hand Gesture Recognition”中的工作作为起点。
  • 解决方案使用了一个实时运行的模型,该模型提取手部地标。
  • 为了训练词级手指拼写模型,使用了内部收集的数据集,包含79K个视频和21K个独特的手指拼写单词。
  • 通过使用双向LSTM和连接时序分类(CTC)损失来训练模型,能够提取区分性特征。

3. 结果

  • 通过微调单手嵌入模型的权重来训练自定义手势识别模型,并报告了结果。
  • 使用了8个类别的内部数据集,包括7个手势类别和1个背景类别。
  • 进行了不同训练样本数量的试验,发现当样本数量为50或更多时,模型表现良好。

4. 手部地标检测改进

  • 当两只手非常接近或相互遮挡时,地标模型可能无法准确提取两只手的所有地标。
  • 通过在训练和推理期间提供手部地标模型的手性提示,可以提高地标的准确性。

5. 实现

  • 开发了低代码训练管道MediaPipe Model Maker,使用户能够轻松训练新的手势识别模型。
  • 实现了模块化的推理管道,该管道以原始手部图像序列为输入,并顺序处理所有图像。

6. 结论

  • 研究提出了一种易于使用的方法,通过微调预训练的手势地标嵌入来训练准确的自定义手势识别模型。
  • 还介绍了对手势地标模型的改进,这些改进增强了手势识别系统的有效性。

参考文献

  • 论文列出了相关的参考文献,包括关于实时手势识别、手部跟踪、LSTM、CTC损失、深度迁移学习、批量归一化等的研究。

论文的重点在于提出了一种新的框架,使得用户可以自定义手势识别流程,并且通过预训练模型和少量的训练数据来实现高准确率的手势识别,这对于AR、VR等领域具有重要的应用价值。


http://www.mrgr.cn/news/16116.html

相关文章:

  • IPv4和子网掩码
  • 深度学习100问36:什么是梯度剪裁
  • LVGL 控件之进度条(lv_bar)
  • 这个项目所需的配置文件和依赖
  • JAVA学习-练习试用Java实现“杨辉三角 II”
  • 心已素闲,时光清浅,余生欢喜度岁月,红尘万般皆随缘
  • docker 镜像导出命令(支持所有镜像导出为独立的包)
  • JVM下篇:性能监控与调优篇-01-概述篇
  • CSS解析:层叠、优先级和继承
  • 网络基础知识
  • 如何避免在 Android 开发中出现内存泄漏?
  • Jetson Orin Nano GPIO 舵机
  • 【Java设计模式】数据访问对象模式:简化数据库交互
  • ip地址变化是什么意思?手机地址ip一直变化怎么办
  • 万亿低空经济:无人机飞手考证正当时
  • 【Spring Boot 3】【Web】全局异常处理
  • 【ESP-IDF FreeRTOS】队列管理
  • 【JDBC】DAO和增删改查通用方法 | 案例
  • Python集合(set)操作:构建复杂结构的实用技巧III
  • Python知识点:如何使用Robot Framework进行自动化测试框架搭建