Cslt：以“==教学目标== * 了解语音信号的产生过程 * 理解频谱和共振峰的概念，理解共振峰和发音内容的关系 * 了解语音识别需要将声...”为内容创建页面

2022-08-11T08:17:39Z

以“==教学目标== * 了解语音信号的产生过程 * 理解频谱和共振峰的概念，理解共振峰和发音内容的关系 * 了解语音识别需要将声...”为内容创建页面

新页面

==教学目标==

* 了解语音信号的产生过程
* 理解频谱和共振峰的概念，理解共振峰和发音内容的关系
* 了解语音识别需要将声学知识和语言知识相结合的基本原则
* 了解当代语音识别端到端模型框架

==教学内容==

===语音：世界上最美的声音===

* 声音是由物体震动产生的，而语音是声带振动产生的。肺部气流冲声带产生振动，经过口腔和鼻腔组成的声道传导出来，就成了我们听到的语音。
* 自然界有各种各样的声音，语音在这些声音中只占很小的一部分，但却是最有价值的声音。它的形式极为简单，只是空气的物理振动。然而，在这样简单的振动中却包含了发音人要表达的内容、情绪、发音人个性等各种丰富信息，而听者也可以在很短的时间内理解这些信息。
* 这种通过声音传递信息的能力是人类在长期进化过程中积累起来的，在动物界是独一无二的。

===语音的共振峰结构===

* 语音的产生过程有点儿类似吹箫的过程。吹箫时，人在一端往箫中吹入空气产生震动，这些震动在箫管中传导，并在某些频率上产生谐振（想想对着空瓶的瓶口吹气产生的啸音）。当按住不同箫孔时，谐振的频率会发生变化，从而吹出不同音调的声音。
* 人在发音时，声带的振动经过口腔传导后同样会在某些频率上产生谐振。人们通过舌头和唇齿的变化来改变声道的特性，从而改变谐振频率并产生不同的发音。
* 我们可以将语音信号转化成频谱图来观察谐振频率的变化，如右图二所示，其中横轴表示时间，纵轴表示频率，明暗代表在相应时频位置上的能量。可以看到图上有若干颜色较深的横纹，这些模纹即是谐振频率所处的位置，通常称为共振峰。可以看到，随着时间推移，共振峰会发生变化，我们就听到了不同的声音。

===语音识别基础===

* 基于语音的生成机理，可以知道不同发音的频谱形式是不同的，基于这一声学特性可以将不同发音区分开来。这一技术称为语音识别。
* 早期语音识别研究单纯基于声学信息。但人们很快发现，语言信息对识别同样重要。这类似于人在识别时，如果是自己熟悉的内容理解起来会比较容易，否则就算听清了每个发音，理解起来还是很困难。
* 将声学信息和语言信息结合在一起，就可以较准确地识别语音了。
* 目前，语音识别在很多场景下已经达到实用程度，如智能手机中的语音助手软件。

===现代语音识别模型===

* 虽然语音识别在原则上是可行的，但实现起来依然非常困难，主要原因有三个方面：（1）不确定性，包括发音本身的不确定性和外界干扰；（2）时序性，语音信号是长度不定的时间序列，发音内容前后依赖；（3）知识融合，识别需要考虑发音规律、词法规律、语法规律等多种知识。语音识别近70年的历史即是解决这些困难的历史。
* 传统语音识别方法多采用统计模型框架，随着深度学习的兴起，端到端建模方法成为主流。
* 这一方法将语音信号作为输入序列，将对应的文字作为输出序列，建立序列到序列模型。
* 当数据量足够大时，这一方法可有效解决前述三个主要困难，得到高精度的识别结果。

教学参考-25 - 版本历史

Cslt：以“==教学目标== * 了解语音信号的产生过程 * 理解频谱和共振峰的概念，理解共振峰和发音内容的关系 * 了解语音识别需要将声...”为内容创建页面