教学参考-28 - 版本历史

2023年9月25日 (一) 09:31 Cslt

2023-09-25T09:31:35Z

Cslt：以“==教学目标== * 了解人类语音的规则性 * 了解语言模型的基础概念 * 理解超长距离语言模型所带来的强大能力 * 理解机器写小...”为内容创建页面

2023-09-25T09:29:44Z

以“==教学目标== * 了解人类语音的规则性 * 了解语言模型的基础概念 * 理解超长距离语言模型所带来的强大能力 * 理解机器写小...”为内容创建页面

新页面

==教学目标==

* 了解人类语音的规则性
* 了解语言模型的基础概念
* 理解超长距离语言模型所带来的强大能力
* 理解机器写小说的基本原理

==教学内容==

===人类语言的规律性===

* 人类的语言是一套非常高效的符号系统，符合语法和语义的约束。
* 可以将语言过程形式化为一个符号生成过程，只要确定了生成规则，就可以生成符合规则的句子。
* 一般来说，我们可以明确定义语法规则，但语义规则很难确定。因此，依靠规则写小说不太可行。

===语言模型===

* 语言模型是非常重要概念。本质上，语言模型描述了语言单元之间的约束性，这一约束既包含语法约束，也包括语义约束。
* 形式上，即基于前序已经句子接后序某一单词的可能性，通常用概率来表示。
* 传统N-gram语言模型采用统计方法，例如bigram P(饭|吃)代表当前面一个词是“吃”，后面一个词是“饭”的可能性。在实际操作中，统计语料中所有“吃”后能接的单词，再看这些单词中“饭”所出现的频率。
* 这一统计模型的缺陷在于无法描述过长的历史，因为历史越长，在语料中出现的可能性越小，统计就失效了。

===大规模神经语言模型===

* 近年来兴起的大规模神经语言模型是机器可以开始写小说的原因。
* 所谓神经语言模型，就是把历史字串通过神经网络进行编码，再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同，不同历史字串可以共享编码结构，因此可以实现非常长距离的上下文建模。
* GPT-3是一个典型的大规模神经语言模型，采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力，可以极大提高信息窗口的长度，看到遥远历史信息，使生成的词更合理，连贯。
*

@@ 第5行： / 第5行： @@
 * 理解超长距离语言模型所带来的强大能力
 * 理解机器写小说的基本原理
 ==教学内容==
@@ 第16行： / 第13行： @@
 * 可以将语言过程形式化为一个符号生成过程，只要确定了生成规则，就可以生成符合规则的句子。
 * 一般来说，我们可以明确定义语法规则，但语义规则很难确定。因此，依靠规则写小说不太可行。
 ===语言模型===
@@ 第30行： / 第26行： @@
 * 所谓神经语言模型，就是把历史字串通过神经网络进行编码，再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同，不同历史字串可以共享编码结构，因此可以实现非常长距离的上下文建模。
 * GPT-3是一个典型的大规模神经语言模型，采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力，可以极大提高信息窗口的长度，看到遥远历史信息，使生成的词更合理，连贯。
-−