自然语言处理3 二元语法与中文分词.docxVIP

下载本文档

4
0
约3.65千字
约 5页
2023-08-14 发布于江苏
举报

自然语言处理3 二元语法与中文分词.docx

3. 二元语法与中文分词上一章中我们实现了块儿不准的词典分词，词典分词无法消歧。给定两种分词结果“商品和服务”以及“商品和服务”，词典分词不知道哪种更加合理。我们人类确知道第二种更加合理，只因为我们从小到大接触的都是第二种分词，出现的次数多，所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一，就是如何利用统计手法对语言建模，这一章讲的就是二元语法的统计语言模型。 3.1 语言模型什么是语言模型模型指的是对事物的数学抽象，那么语言模型指的就是对语言现象的数学抽象。准确的讲，给定一个句子 w，语言模型就是计算句子的出现概率 p(w) 的模型，而统计的对象就是人工标注而成的语料库。假设构建如下的小型语料库：商品和服务商品和服物美价廉服务和货币每个句子出现的概率都是 1/3，这就是语言模型。然而 p(w) 的计算非常难：句子数量无穷无尽，无法枚举。即便是大型语料库，也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外，意味着它们的概率都被当作0，这种现象被称为数据稀疏。然而随着句子长度的增大，语言模型会遇到如下两个问题。数据稀疏，指的是长度越大的句子越难出现，可能统计不到频次，导致，比如 p(商品和货币)=

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理3 二元语法与中文分词.docxVIP