自然语言处理3 二元语法与中文分词.docxVIP

  • 4
  • 0
  • 约3.65千字
  • 约 5页
  • 2023-08-14 发布于江苏
  • 举报

自然语言处理3 二元语法与中文分词.docx

3. 二元语法与中文分词 上一章中我们实现了块儿不准的词典分词,词典分词无法消歧。给定两种分词结果“商品 和服 务”以及“商品 和 服务”,词典分词不知道哪种更加合理。 我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。 3.1 语言模型 什么是语言模型 模型指的是对事物的数学抽象,那么语言模型指的就是对语言现象的数学抽象。准确的讲,给定一个句子 w,语言模型就是计算句子的出现概率 p(w) 的模型,而统计的对象就是人工标注而成的语料库。 假设构建如下的小型语料库: 商品 和 服务 商品 和服 物美价廉 服务 和 货币 每个句子出现的概率都是 1/3,这就是语言模型。然而 p(w) 的计算非常难:句子数量无穷无尽,无法枚举。即便是大型语料库,也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外,意味着它们的概率都被当作0,这种现象被称为数据稀疏。 然而随着句子长度的增大,语言模型会遇到如下两个问题。 数据稀疏,指的是长度越大的句子越难出现,可能统计不到频次,导致 ,比如 p(商品 和 货币)=

文档评论(0)

1亿VIP精品文档

相关文档