【阅读文献】一个使用大语言模型的端到端语音概要
一种高效的端到端抽象语音摘要模型
文献链接:https://www.isca-archive.org/interspeech_2024/shang24_interspeech.pdf
研究背景
抽象语音摘要(SSum)旨在从较长的语音输入中直接生成类似人类的文本摘要。与文本摘要任务相比.
SSum面临以下核心挑战及其解决的方法:
挑战一:长时间语音的处理
- 对于机器来说,处理长时间的语音也需要巨大的计算资源。
论文的解决方法:通过把长语音分成几个小段来处理,每段独立进行分析,再把这些小段的结果结合起来。
挑战二:语音到文本的复杂转换
- 比如要从一本长篇小说中提炼出几句话的总结,这个过程非常复杂。<