<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://www.cslt.org/mediawiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-cn">
		<id>http://www.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-25</id>
		<title>教学参考-25 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://www.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-25"/>
		<link rel="alternate" type="text/html" href="http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-25&amp;action=history"/>
		<updated>2026-04-03T23:25:16Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.23.3</generator>

	<entry>
		<id>http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-25&amp;diff=39024&amp;oldid=prev</id>
		<title>Cslt：以“==教学目标==  * 了解语音信号的产生过程 * 理解频谱和共振峰的概念，理解共振峰和发音内容的关系 * 了解语音识别需要将声...”为内容创建页面</title>
		<link rel="alternate" type="text/html" href="http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-25&amp;diff=39024&amp;oldid=prev"/>
				<updated>2022-08-11T08:17:39Z</updated>
		
		<summary type="html">&lt;p&gt;以“==教学目标==  * 了解语音信号的产生过程 * 理解频谱和共振峰的概念，理解共振峰和发音内容的关系 * 了解语音识别需要将声...”为内容创建页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==教学目标==&lt;br /&gt;
&lt;br /&gt;
* 了解语音信号的产生过程&lt;br /&gt;
* 理解频谱和共振峰的概念，理解共振峰和发音内容的关系&lt;br /&gt;
* 了解语音识别需要将声学知识和语言知识相结合的基本原则&lt;br /&gt;
* 了解当代语音识别端到端模型框架&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==教学内容==&lt;br /&gt;
&lt;br /&gt;
===语音：世界上最美的声音===&lt;br /&gt;
&lt;br /&gt;
* 声音是由物体震动产生的，而语音是声带振动产生的。肺部气流冲声带产生振动，经过口腔和鼻腔组成的声道传导出来，就成了我们听到的语音。&lt;br /&gt;
* 自然界有各种各样的声音，语音在这些声音中只占很小的一部分，但却是最有价值的声音。它的形式极为简单，只是空气的物理振动。然而，在这样简单的振动中却包含了发音人要表达的内容、情绪、发音人个性等各种丰富信息，而听者也可以在很短的时间内理解这些信息。&lt;br /&gt;
* 这种通过声音传递信息的能力是人类在长期进化过程中积累起来的，在动物界是独一无二的。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===语音的共振峰结构===&lt;br /&gt;
&lt;br /&gt;
* 语音的产生过程有点儿类似吹箫的过程。吹箫时，人在一端往箫中吹入空气产生震动，这些震动在箫管中传导，并在某些频率上产生谐振（想想对着空瓶的瓶口吹气产生的啸音）。当按住不同箫孔时，谐振的频率会发生变化，从而吹出不同音调的声音。&lt;br /&gt;
* 人在发音时，声带的振动经过口腔传导后同样会在某些频率上产生谐振。人们通过舌头和唇齿的变化来改变声道的特性，从而改变谐振频率并产生不同的发音。&lt;br /&gt;
* 我们可以将语音信号转化成频谱图来观察谐振频率的变化，如右图二所示，其中横轴表示时间，纵轴表示频率，明暗代表在相应时频位置上的能量。可以看到图上有若干颜色较深的横纹，这些模纹即是谐振频率所处的位置，通常称为共振峰。可以看到，随着时间推移，共振峰会发生变化，我们就听到了不同的声音。&lt;br /&gt;
&lt;br /&gt;
===语音识别基础===&lt;br /&gt;
&lt;br /&gt;
* 基于语音的生成机理，可以知道不同发音的频谱形式是不同的，基于这一声学特性可以将不同发音区分开来。这一技术称为语音识别。&lt;br /&gt;
* 早期语音识别研究单纯基于声学信息。但人们很快发现，语言信息对识别同样重要。这类似于人在识别时，如果是自己熟悉的内容理解起来会比较容易，否则就算听清了每个发音，理解起来还是很困难。&lt;br /&gt;
* 将声学信息和语言信息结合在一起，就可以较准确地识别语音了。&lt;br /&gt;
* 目前，语音识别在很多场景下已经达到实用程度，如智能手机中的语音助手软件。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===现代语音识别模型===&lt;br /&gt;
&lt;br /&gt;
* 虽然语音识别在原则上是可行的，但实现起来依然非常困难，主要原因有三个方面：（1）不确定性，包括发音本身的不确定性和外界干扰；（2）时序性，语音信号是长度不定的时间序列，发音内容前后依赖；（3）知识融合，识别需要考虑发音规律、词法规律、语法规律等多种知识。语音识别近70年的历史即是解决这些困难的历史。&lt;br /&gt;
* 传统语音识别方法多采用统计模型框架，随着深度学习的兴起，端到端建模方法成为主流。&lt;br /&gt;
* 这一方法将语音信号作为输入序列，将对应的文字作为输出序列，建立序列到序列模型。&lt;br /&gt;
* 当数据量足够大时，这一方法可有效解决前述三个主要困难，得到高精度的识别结果。&lt;/div&gt;</summary>
		<author><name>Cslt</name></author>	</entry>

	</feed>