当前位置: 首页 > news >正文

制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

在这里插入图片描述

1. 搜索关键字获取音视频链接


if __name__ == "__main__":with sync_playwright() as playwright:searcher = BLVideoSearch(playwright, headless=True)url = searcher.make_url(keyword=["小学公开课"])searcher.run(url, outfile="videos_url.txt")

得到链接列表
在这里插入图片描述

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件
ffmpeg: 将视频实时转音频
subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

command = [YOUGET, "-o", self.video_dir, "-O", utt, task]subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:
在这里插入图片描述
最终保存为音频文件
在这里插入图片描述

3. 使用whisper进行断句和语音识别


http://www.mrgr.cn/news/2473.html

相关文章:

  • Python实现台阶问题/斐波纳挈
  • 已解决centos7 yum报错:cannot find a valid baseurl for repo:base/7/x86_64的解决方案
  • linux(ARM)常用MAC设置命令
  • TCP协议和UDP协议有什么区别?被攻击怎么处理?
  • GitHub | 记录上传到GitHub上面的md文件内容的图片无法显示的问题
  • 层次聚类算法原理及Python实现
  • AXI DMA内部的数据缓冲区
  • 虚拟化平台kvm架构 部署kvm虚拟化平台
  • 微信小程序的遍历和事件的简单案例
  • MySQL的数据类型
  • [word] 复杂文本如何仅全选word中的表格 (简单跟做即可)
  • MySQL复合查询
  • LDRA Testbed(TBrun)软件单元测试_实例讲解(局部静态变量)
  • 第四届机电一体化、自动化与智能控制国际学术会议(MAIC 2024)
  • 狄拉克函数 or 单位冲击函数
  • SQLALchemy ORM 的关联关系之 ORM 中的一对多/多对一
  • 机器学习笔记四-决策树
  • 几种防止Spring Boot 程序崩溃的方法
  • 小程序变更主体还要重新备案吗?
  • 使用亮数据爬虫工具解锁复杂爬虫场景