【python的魅力】:教你如何用几行代码实现文本语音识别

news/2024/5/18 18:59:49

文章目录

    • 引言
      • 一、运行效果
      • 二、文本转换为语音
        • 2.1 使用pyttsx3
        • 2.2 使用SAPI实现文本转换语音
        • 2.3 使用 SpeechLib实现文本转换语音
      • 三、语音转换为文本
        • 3.1 使用 PocketSphinx实现语音转换文本

引言

语音识别技术,也被称为自动语音识别,目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。

一、运行效果

Python语音识别

二、文本转换为语音

2.1 使用pyttsx3

pyttsx3 是一个流行的 Python 第三方库,用于实现文本到语音(TTS)的转换。这个库支持多种操作系统,包括 Windows、Linux 和 macOS,并且可以在没有互联网连接的情况下工作,因为它使用的是计算机上安装的本地语音引擎。

主要特点

  • 跨平台:可以在不同的操作系统上运行。
  • 离线工作:不依赖于互联网连接。
  • 多种语音和语言:支持多种语音和语言选项。
  • 自定义设置:允许用户调整语速、音量和语调等参数。
  • 简单易用:具有直观的 API,易于集成和使用。

安装

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

【示例】:使用 pyttsx3 实现文本转换语音

import pyttsx3 as pyttsxengine = pyttsx.init()  # 初始化引擎
engine.say('独断万古荒天帝, 唯负罪州火桑女')  # 添加文本到语音队列
engine.runAndWait()  # 开始语音输出
2.2 使用SAPI实现文本转换语音

在 python 中,你也可以使用 SAPI 来做文本到语音的转换。
在Python中,win32com库是一个用于与Windows操作系统中的COM(Component Object Model)组件进行交互的模块。win32com.client模块提供了一种使用COM自动化的Python接口。通过win32com.client.Dispatch方法,可以访问和控制支持COM自动化的任何Windows应用程序或服务。
对于SAPI(Speech Application Programming Interface),可以通过win32com库来访问其功能,从而实现文本到语音(TTS)和语音识别。

【示例】:使用 SAPI 实现文本转换语音

from win32com.client import Dispatchmsg = "独断万古荒天帝, 唯负罪州火桑女"
speaker = Dispatch('SAPI.SpVoice')  # 创建SAPI的语音引擎实例
speaker.Speak(msg)  # 将文本转换为语音并朗读
del speaker  # 删除 speaker 对象,释放与之关联的资源。
2.3 使用 SpeechLib实现文本转换语音

SpeechLib 是微软提供的一个用于语音功能的 COM 库,它允许开发者在 Windows 平台上进行文本到语音(TTS)和语音识别的开发。通过 SpeechLib,您可以控制语音引擎的多种属性,比如语速、音量、语调以及使用的语音库。
使用 SpeechLib,可以从文本文件中获取输入,再将其转换为语音。

使用使用 SpeechLib需要安装第三方库:comtypes

安装命令

pip install comtypes -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

【示例】:使用 SpeechLib 实现文本转换语音
demo文件
在这里插入图片描述

from comtypes.client import CreateObject
from comtypes.gen import SpeechLib  # 导入 SpeechLib
engine = CreateObject("SAPI.SpVoice")  # 创建 SAPI.SpVoice 对象的实例
stream = CreateObject("SAPI.SpFileStream")  # 创建 SAPI.SpFileStream 对象的实例
infile = 'demo.txt'
outfile = 'demo_audio.wav'
stream.Open(outfile, SpeechLib.SSFMCreateForWrite)  # 输出文件,准备写入音频数据
engine.AudioOutputStream = stream  # 音频输出流设置为 stream 对象
f = open('demo', 'r', encoding='utf-8')  # 打开输入文本文件
TheText = f.read()  # 读取文件
f.close()  # 关闭文件
engine.speak(TheText)  # 使用语音引擎将文本转换为语音并输出。
stream.close()  # 关闭音频流,完成音频文件的写入

在这里插入图片描述

三、语音转换为文本

3.1 使用 PocketSphinx实现语音转换文本

PocketSphinx 是一个轻量级的语音识别库,它是 CMU Sphinx 开源语音识别系统的一个子集。CMU Sphinx 由卡内基梅隆大学开发,是一个功能强大且灵活的语音识别系统。PocketSphinx 特别适用于嵌入式系统和移动设备,因为它的体积小、速度快,同时提供了相对较高的识别准确率。

PocketSphinx 的主要特点包括

  • 轻量级:适用于资源受限的环境,如移动设备和嵌入式系统。
  • 实时性能:能够实现实时的语音识别。
  • 易于使用:提供了简单的 API,方便开发者快速集成和使用。
  • 可定制:允许开发者根据需要定制语言模型和声学模型。

所需的第三方模块:PocketSphinxSpeechRecognition
安装命令

pip install PocketSphinx -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
pip install SpeechRecognition -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

【示例】:使用 PocketSphinx 实现语音转换文本

import speech_recognition as sraudio_file = 'demo_audio.wav'
r = sr.Recognizer()
with sr.AudioFile(audio_file) as source:audio = r.record(source)
try:# print('文本内容:',r.recognize_sphinx(audio,language="zh_CN"))print('文本内容:', r.recognize_sphinx(audio))
except Exception as e:print(e)

如果在使用PocketSphinx时遇到问题,比如初始化失败,需要检查:

  • 是否已经正确安装了pocketsphinx。
  • 是否有合适的语言模型和字典可供使用。
  • 是否有足够的权限访问所需的文件。
  • 系统是否满足PocketSphinx的运行要求。

安装完 speech_recognition 之后是不支持中文的,需要在 Sphinx 语音识别工具包里面下载对应的普通话升学和语言模型 。
下载链接:

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/
将下载好的普通话升学和语言模型放到安装 Python\Lib\site-packages\speech_recognition\pocketsphinx-data目录下


http://www.mrgr.cn/p/26782064

相关文章

电脑是组装的好还是原装的好?

组装电脑和原装电脑孰优孰劣一直备受争议。困扰着无数人的问题:组装电脑和原装电脑到底哪个更出色?下面php小编新一将为您详细介绍这两者的优缺点,帮助您做出明智的选择。继续阅读,探索组装电脑的灵活性、升级潜力和性价比,以及原装电脑的稳定性、保修和简便性。电脑是组装…

32.Docker认识

Docker介绍 Docker是一个快速交付应用,运行应用的技术。 1.可以将程序、依赖、运行环境一起打包为一个镜像,可以迁移到任意Linux操作系统。 2.运行时利用沙箱机制行程隔离容器,各个应用互不干扰。 3.启动、移除都可以通过一行命令完成&am…

【深耕 Python】Quantum Computing 量子计算机(1)图像绘制基础

一、绘制静止图像 使用matplotlib库绘制函数图像y sin(pi * x): import math import matplotlib.pyplot as pltx_min -2.0 x_max 2.0N 1000x1 [] y1 []for i in range(N 1):x x_min (x_max - x_min) * i / Ny math.sin(math.pi * x)x1.append(x)y1.append(y)plt.xl…

OpenCV(一) —— OpenCV 基础

1、OpenCV 简介 OpenCV(Open Source Computer Vision Library)是一个基于 BSD 许可开源发行的跨平台的计算机视觉库。可用于开发实时的图像处理、计算机视觉以及模式识别程序。由英特尔公司发起并参与开发,以 BSD 许可证授权发行&#xff0c…

小程序wx.getlocation接口如何开通?

小程序地理位置接口有什么功能? 随着小程序生态的发展,越来越多的小程序开发者会通过官方提供的自带接口来给用户提供便捷的服务。但是当涉及到地理位置接口时,却经常遇到申请驳回的问题,反复修改也无法通过,给的理由…

python交教程4:文件操作

文件操作流程 人类操作一个word流程: 1、找到文件、双击打开 2. 读或修改 3. 保存&关闭 ⽤python操作⽂件也差不多: 只读模式 创建模式 追加模式 遍历文件 图片视频--二进制文件 其他方法 打开文件--混合模式

Go Web开发【xorm 框架】

1、xorm 1.1、xorm 简介 xorm 是一个简单而强大的Go语言ORM库. 通过它可以使数据库操作非常简便。 特性 支持 struct 和数据库表之间的灵活映射,并支持自动同步事务支持同时支持原始SQL语句和ORM操作的混合执行使用连写来简化调用支持使用ID, In, Where, Limit,…

Gateway结合Nacos使用!!!

一、本地结合使用 1. 引入依赖 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId> </dependency> 2. bootstarp.yml配置文件 如果Nacos中配置使用yaml格式&…

内联函数、引用、汇编

内联函数内联函数是一种特殊的 C++ 函数,编译器会将它的代码直接插入到调用它的位置,而不是像普通函数那样进行函数调用。这可以减少函数调用的开销,从而提高性能。#include <iostream> using namespace std;int func(int v1, int v2) {return v1 + v2;}inline int fu…

解析mysql奇葩语句

首先看看完整的表如下图那么看看一个比较奇葩的语句select * from users where name = aa=bb这个语句为啥能执行成功以及为什么打印出了除了两个aa之外的所有行数据呢。我们来解释一下原理。 当我们使用 where 语句的时候, where是会一行一行的匹配的 ,同时where的执行顺序是…

Go-编程实用手册(全)

Go 编程实用手册(全)原文:zh.annas-archive.org/md5/62FC08F1461495F0676A88A03EA0ECBA 译者:飞龙 协议:CC BY-NC-SA 4.0前言 本书将通过解决开发人员常见的问题来帮助您学习 Go 编程语言。您将首先安装 Go 二进制文件,并熟悉开发应用程序所需的工具。然后,您将操作字符…

对2023年图灵奖揭晓看法

2023年图灵奖揭晓&#xff0c;你怎么看&#xff1f; 2023年图灵奖&#xff0c;最近刚刚颁给普林斯顿数学教授 Avi Wigderson&#xff01;作为理论计算机科学领域的领军人物&#xff0c;他对于理解计算中的随机性和伪随机性的作用&#xff0c;作出了开创性贡献。这些贡献不仅推…

Visual studio调试技巧

Visual studio调试技巧 bug是什么&#xff1f;Debug和ReleaseDebugRelease 如何调试VS调试快捷键调试过程中查看程序信息查看临时变量的值查看内存信息查看调用堆栈查看汇编信息查看寄存器信息 编译常见错误编译型错误链接型错误运行时错误 bug是什么&#xff1f; bug的英文释…

改进需求分析书

需求规格说明书 该项目是一个基于TCP用QT开发的五子棋对战系统。 项目仓库地址 1.1面向用户分析 五子棋是一种简单的休闲游戏,主要面向不需要高强度消耗、高耗时的网络用户。 对于本项目,目标人群精确至需要在游戏的同时进行社交的用户,他们需要在保证游戏正常运行的同时,直…

ThreeJS:坐标辅助器与轨道控制器

ThreeJS与右手坐标系 使用ThreeJS创建3D场景时&#xff0c;需要使用一个坐标系来定位和控制对象的位置和方向。 ThreeJS使用的坐标系是右手坐标系&#xff0c;即&#xff1a;X轴向右、Y轴向上、Z轴向前&#xff0c;如下图所示&#xff0c; ThreeJS-右手坐标系 Tips&#xff1a;…

code-server容器webpack的ws无法连接解决方法

TLDR 通过指定client的wsrul去连接ws devServer.client.webSocketURL ‘wss://<Forwarded uri>/ws’ 拓扑 1、code-server: 用于编写代码、启动webpack dev-server 服务&#xff1b;[https://<domain>:8001] 2、webpack: 用于浏览dev-server服务&#xff1b;[ht…

Picks Theorem 学习笔记

求顶点都是整点的简单多边形内部的整点个数。Picks Theorem 学习笔记 UVA10088 题目传送门 题意:顺时针或逆时针地给出一个 \(n\) 个顶点(顶点都是整点)的简单多边形,求这个多边形内部的整点数量(位于多边形形上的整点不算)。 Picks Theorem 对于一个顶点都是整点的简单多…

DC-9-sudo提权

标签:SQL注入、本地文件包含LFI、端口敲门、hydra爆破、linux提权 0x00 环境准备 下载地址:https://www.vulnhub.com/entry/dc-9,412/ 靶机描述: DC-9 is another purposely built vulnerable lab with the intent of gaining experience in the world of penetration testi…

DC-8-Drupal-exim4提权

Vulnhub简介 Vulnhub是一个提供了很多漏洞环境的靶场平台,其中的环境基本上都是做好的虚拟机镜像文件,需要使用VMware或者是VirtualBox运行。每个镜像会有破解的目标,大多是Boot2root,从启动虚拟机到获取操作系统的root权限和查看flag。 靶场部署 Vulnhub官网:https://www…