Cslt：以“==教学目标== * 了解人类语言的复杂性，从而了解机器翻译的困难所在 * 了解基于规则、基于统计和基于神经网络的三种机器...”为内容创建页面

2022-08-13T02:42:34Z

以“==教学目标== * 了解人类语言的复杂性，从而了解机器翻译的困难所在 * 了解基于规则、基于统计和基于神经网络的三种机器...”为内容创建页面

新页面

==教学目标==

* 了解人类语言的复杂性，从而了解机器翻译的困难所在
* 了解基于规则、基于统计和基于神经网络的三种机器翻译方法

==教学内容==

===人类语言===

* 据统计，人类有5000-7000种，大部分是没有形成文字的口语。在各种语言中，汉语占绝对优势，是使用人数最多的语言。
* 语言是人类的特有能力，不仅可表达丰富的思想，而且极具创造力，可以用有限的单元组合起来描述无穷无尽的新事物。
* 同时，人们创造了语法规则来约束语言过程，又随时可以打破这一约束，极为灵活。
* 最后，人类语言高度抽象，相似的符号意义完全不同。如英语里”to”和”too”，不论发音还是形态都很相似，但意义截然不同。
* 这些复杂性意味着从一门语言到另一门语言翻译非常困难。

===基于规则的机器翻译方法===

* 语言的多样性给交流带来极大障碍，因此，自计算机诞生之初人们就想到用机器代替人来进行翻译，如Warren Weaver在1947年写给 Norbert Wiener 的信中就谈到了机器翻译的设想。
* 美苏冷战时期，为了情报工作需要，美苏双方都在努力开发机器翻译系统。当时的翻译方式基本上是一本词典加上若干人为规则。例如，IBM推出第一台翻译机器IBM-701,基于6条文法转换规则和250个单词，成功将约 60 句俄文自动翻译成英文。这一成就极大激发了机器翻译研究者的热情。
* 然而，人们很快发现人类的语言非常复杂，不是拿本词典就可以翻译的。1966年以后，失望情绪开始蔓延，此后十年机器翻译研究几乎停滞。
* 70年代后，受乔姆斯基生成语法理论的影响，人们开始探索理解型翻译，即首先对源语言句子做自下而上的语法解析，再基于得到的语法结构做自上而下的目标语言生成。尽管思路上很清晰，但人们还是发现实际语言太过复杂，很多时候难以解析，翻译更加无从谈起。基于规则的翻译方法走入死胡同。

===基于统计的机器翻译方法===

* 考虑到规则对人类语言的脆弱性，人们开始研究基于数据驱动的机器翻译模型。一个重大突破是基于短语的统计机器翻译模型（SMT）的诞生。
* 如右图所示，基于大量平行语料库，首先对源句和目标句中的短语进行对齐，由此学习不同语言短语间的对应词典。基于这一短语词典，并结合目标语言的语言模型，即可实现较为顺畅的翻译。
* SMT依然保留了传统基于规则的翻译系统中关于词典和转换规则的概念，只不过这些词典和规则（语言模型）是通过数据学出来的，且具有概率意义，从而可处理语言的复杂性。

===基于神经网络的机器翻译方法===

* 2014年以来，以谷歌为代表的研究机构将深度学习引入机器翻译，称为神经机器翻译（NMT）。2018年，微软报告他们的中英机器翻译系统在WMT2017评测集上已经达到人类翻译员的水平。
* 和SMT不同，NMT中已经不再有规则的影子，不论是字典还是转换规则，都被实现在神经网络的连接权重中。这一根本变革使得系统结构变得更简单，学习能力也更强，同时也对数据提出了更高要求。

===打破语言边界===

* 从1947年Warren Weaver提出机器翻译的概念以来已经过去了70多年，现在NMT已经基本上可以满足主要语言之间的翻译需求了。然而，在小语种翻译任务上，NMT的性能还是差很远，打破语言边界的理想还没有完全实现。
* 近年来，人们研究了很多方法来解决这个问题，包括无监督学习方法，融合知识与数据的方法等。基于人类语言的共通性，可以预期未来机器翻译一定可以实现人类沟通无障碍的目标。

教学参考-30 - 版本历史

Cslt：以“==教学目标== * 了解人类语言的复杂性，从而了解机器翻译的困难所在 * 了解基于规则、基于统计和基于神经网络的三种机器...”为内容创建页面