- 4
- 0
- 约3.65千字
- 约 5页
- 2023-08-14 发布于江苏
- 举报
3. 二元语法与中文分词
上一章中我们实现了块儿不准的词典分词,词典分词无法消歧。给定两种分词结果“商品 和服 务”以及“商品 和 服务”,词典分词不知道哪种更加合理。
我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。
3.1 语言模型
什么是语言模型
模型指的是对事物的数学抽象,那么语言模型指的就是对语言现象的数学抽象。准确的讲,给定一个句子 w,语言模型就是计算句子的出现概率 p(w) 的模型,而统计的对象就是人工标注而成的语料库。
假设构建如下的小型语料库:
商品 和 服务
商品 和服 物美价廉
服务 和 货币
每个句子出现的概率都是 1/3,这就是语言模型。然而 p(w) 的计算非常难:句子数量无穷无尽,无法枚举。即便是大型语料库,也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外,意味着它们的概率都被当作0,这种现象被称为数据稀疏。
然而随着句子长度的增大,语言模型会遇到如下两个问题。
数据稀疏,指的是长度越大的句子越难出现,可能统计不到频次,导致 ,比如 p(商品 和 货币)=
您可能关注的文档
最近下载
- 客房部实操考核表.xls VIP
- 永诚财险核物质损失保险条款.pdf VIP
- 2025年建筑业十项新技术 .pdf VIP
- 初三化学:方程式配平经典练习题(含答案).pdf VIP
- 陕西、河南、山西天一顶尖计划(四)2026届高三4月联考化学试题(含答案).pdf
- 佳能 PowerShot G1X说明书.pdf
- 第15课《我是记忆小能手》课件 生命生态安全四年级下册 (川教版).ppt VIP
- 2025-2026学年小学信息技术滇人版五年级第6册-滇人版教学设计合集.docx
- 山东省名校大联考2025届高三下学期4月联合检测化学试卷.docx VIP
- 人教版2025年春学期七年级下册期中地理试卷(含解析答案).docx VIP
原创力文档

文档评论(0)