<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://www.cslt.org/mediawiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-cn">
		<id>http://www.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-30</id>
		<title>教学参考-30 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://www.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-30"/>
		<link rel="alternate" type="text/html" href="http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-30&amp;action=history"/>
		<updated>2026-04-03T23:25:46Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.23.3</generator>

	<entry>
		<id>http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-30&amp;diff=39050&amp;oldid=prev</id>
		<title>Cslt：以“==教学目标==  * 了解人类语言的复杂性，从而了解机器翻译的困难所在 * 了解基于规则、基于统计和基于神经网络的三种机器...”为内容创建页面</title>
		<link rel="alternate" type="text/html" href="http://www.cslt.org/mediawiki/index.php?title=%E6%95%99%E5%AD%A6%E5%8F%82%E8%80%83-30&amp;diff=39050&amp;oldid=prev"/>
				<updated>2022-08-13T02:42:34Z</updated>
		
		<summary type="html">&lt;p&gt;以“==教学目标==  * 了解人类语言的复杂性，从而了解机器翻译的困难所在 * 了解基于规则、基于统计和基于神经网络的三种机器...”为内容创建页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==教学目标==&lt;br /&gt;
&lt;br /&gt;
* 了解人类语言的复杂性，从而了解机器翻译的困难所在&lt;br /&gt;
* 了解基于规则、基于统计和基于神经网络的三种机器翻译方法&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==教学内容==&lt;br /&gt;
&lt;br /&gt;
===人类语言===&lt;br /&gt;
&lt;br /&gt;
* 据统计，人类有5000-7000种，大部分是没有形成文字的口语。在各种语言中，汉语占绝对优势，是使用人数最多的语言。&lt;br /&gt;
* 语言是人类的特有能力，不仅可表达丰富的思想，而且极具创造力，可以用有限的单元组合起来描述无穷无尽的新事物。&lt;br /&gt;
* 同时，人们创造了语法规则来约束语言过程，又随时可以打破这一约束，极为灵活。&lt;br /&gt;
* 最后，人类语言高度抽象，相似的符号意义完全不同。如英语里”to”和”too”，不论发音还是形态都很相似，但意义截然不同。&lt;br /&gt;
* 这些复杂性意味着从一门语言到另一门语言翻译非常困难。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===基于规则的机器翻译方法===&lt;br /&gt;
&lt;br /&gt;
* 语言的多样性给交流带来极大障碍，因此，自计算机诞生之初人们就想到用机器代替人来进行翻译，如Warren Weaver在1947年写给 Norbert Wiener 的信中就谈到了机器翻译的设想。&lt;br /&gt;
* 美苏冷战时期，为了情报工作需要，美苏双方都在努力开发机器翻译系统。当时的翻译方式基本上是一本词典加上若干人为规则。例如，IBM推出第一台翻译机器IBM-701,基于6条文法转换规则和250个单词，成功将约 60 句俄文自动翻译成英文。这一成就极大激发了机器翻译研究者的热情。&lt;br /&gt;
* 然而，人们很快发现人类的语言非常复杂，不是拿本词典就可以翻译的。1966年以后，失望情绪开始蔓延，此后十年机器翻译研究几乎停滞。&lt;br /&gt;
* 70年代后，受乔姆斯基生成语法理论的影响，人们开始探索理解型翻译，即首先对源语言句子做自下而上的语法解析，再基于得到的语法结构做自上而下的目标语言生成。尽管思路上很清晰，但人们还是发现实际语言太过复杂，很多时候难以解析，翻译更加无从谈起。基于规则的翻译方法走入死胡同。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===基于统计的机器翻译方法===&lt;br /&gt;
&lt;br /&gt;
* 考虑到规则对人类语言的脆弱性，人们开始研究基于数据驱动的机器翻译模型。一个重大突破是基于短语的统计机器翻译模型（SMT）的诞生。&lt;br /&gt;
* 如右图所示，基于大量平行语料库，首先对源句和目标句中的短语进行对齐，由此学习不同语言短语间的对应词典。基于这一短语词典，并结合目标语言的语言模型，即可实现较为顺畅的翻译。&lt;br /&gt;
* SMT依然保留了传统基于规则的翻译系统中关于词典和转换规则的概念，只不过这些词典和规则（语言模型）是通过数据学出来的，且具有概率意义，从而可处理语言的复杂性。&lt;br /&gt;
&lt;br /&gt;
===基于神经网络的机器翻译方法===&lt;br /&gt;
&lt;br /&gt;
* 2014年以来，以谷歌为代表的研究机构将深度学习引入机器翻译，称为神经机器翻译（NMT）。2018年，微软报告他们的中英机器翻译系统在WMT2017评测集上已经达到人类翻译员的水平。&lt;br /&gt;
* 和SMT不同，NMT中已经不再有规则的影子，不论是字典还是转换规则，都被实现在神经网络的连接权重中。这一根本变革使得系统结构变得更简单，学习能力也更强，同时也对数据提出了更高要求。&lt;br /&gt;
&lt;br /&gt;
===打破语言边界===&lt;br /&gt;
&lt;br /&gt;
* 从1947年Warren Weaver提出机器翻译的概念以来已经过去了70多年，现在NMT已经基本上可以满足主要语言之间的翻译需求了。然而，在小语种翻译任务上，NMT的性能还是差很远，打破语言边界的理想还没有完全实现。&lt;br /&gt;
* 近年来，人们研究了很多方法来解决这个问题，包括无监督学习方法，融合知识与数据的方法等。基于人类语言的共通性，可以预期未来机器翻译一定可以实现人类沟通无障碍的目标。&lt;/div&gt;</summary>
		<author><name>Cslt</name></author>	</entry>

	</feed>