- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么是分词?
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
中文分词是中文信息处理的基础。
应用广泛:文本分类,文本挖掘,机器翻译,信息检索。
第1页/共24页
什么是分词?
分词实例
日本 国债 期货 周五 ( 3月 19日 ) 小幅 走 高 , 市场 仍然 猜测 日本 央行 ( Bank of Japan ) 会 再度 承受 压力 , 在 未来 数月 进一步 放松 货币 政策 。
主力 三月 日本 国债 期货 收 于 138.63 , 上涨 0.08 。
第2页/共24页
分词主要问题
分词规范问题
歧义处理问题
未登录词问题
第3页/共24页
分词规范
汉语是字的序列,词与词之间没有间隔标记,这使得词
的界定缺乏自然标准。
分词结果是否正确需要一个通用、权威的分词标准来衡
量。
分词标准问题实际上是汉语词与语素,词与词组的界
定问题,这是汉语语法的一个基本、长期的问题。
第4页/共24页
分词规范
分词规范难于制定的原因:
“词”的概念不清晰:
“词”的概念,汉语语言学界一直争论不休,迄今没有定论
“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题, 仍然没有解决。
第5页/共24页
分词规范
分词规范难于制定的原因
不同应用造成对分词单位认识的差异
键盘输入系统:“这是” 、“不多” 、“每一”
检索系统:“古典 数论” 、“计算 语言学”
第6页/共24页
分词规范
现有分词规范:
《信息处理用现代汉语分词规范》
《现代汉语语料库加工规范—词语切分与词性标注》
《资讯处理用中文分词规范》
《973当代汉语文本语料库分词、词性标注加工规范》
第7页/共24页
切分歧义
歧义在汉语中普遍存在,形式上相同的一段文字,在
不同的场景或语境中,可以有不同的切分结果。
切分歧义是汉语自动分词中不可避免的一个问题,对歧
义的处理能力将直接影响汉语自动分词的切分精度。
第8页/共24页
切分歧义
歧义产生的根源:
由自然语言的二义性引发的歧义,称之为第一类歧义。这类歧义即使人工分词也会产生歧义,只有结合上下文才能给出正确切分。
羽毛球拍卖完了
羽毛球/拍卖/完/了 羽毛/球拍/卖/完/了
第9页/共24页
切分歧义
歧义产生的根源:
由机器自动分词产生的歧义,称之为第二类歧义。这类歧义的是由机器自动分词造成的,人工分词不会产生歧义。
李建国家里有一台家用电器
正确切分为:李建国/家/里/有/一台/家用/电器
逆向最大匹配切分为:
李建/国家/里/有/一台/家用/电器
第10页/共24页
切分歧义
歧义字段分类:
含有切分歧义的汉字串称为歧义字段,主要分为两类:
交集型歧义
组合型歧义
第11页/共24页
切分歧义
歧义字段分类:
交集型歧义
汉字串ABC既可以切分成AB/C形式也可以切分成A/BC形式
,其中AB是词,BC也是词。
“不合理” 、“和服装”
组合型歧义
对于汉字串AB,既可以切分成AB形式,也可以切分成A/B
形式,其中A,B和AB都是词典中的词。
“才能” 、“将来” 、“马上”
第12页/共24页
切分歧义
歧义:
上述两种歧义为比较典型的歧义,其中交集型歧义约占全部歧义的85%以上。
组合型歧义的消解难度较大,需要上下文的语法、语义信息,而这些信息的获得首先需要正确分词,形成了一种互相依赖的关系。
第13页/共24页
未登录词
简称OOV(Out-of-Vocabulary),即未包括在分词词典中
但必须切分出来的词。
统计发现,未登录词造成的分词精度失落比切分歧义造
成的精度失落至少大五倍以上。
第14页/共24页
未登录词
未登录词分类:
新涌现的普通词汇或者专业术语,如“微博”、“给力”
专用名词,如中国人名,外国译名,地名,组织机构名
第15页/共24页
未登录词
前一类未登录词理论上是可预期的,能够预先添加到词
表中
后一类未登录词完全不可预期,由于人名、地名、机构
名数量太多,不可能全部收录到词典中。
对未登录词的研究主要集中在第二类。
第16页/共24页
分词方法
基于规则的方法
基于统计的方法
第17页/共24页
基于规则的方法
又称为机械分词方法。该方法三个要素:分词词典、文本扫描方向和匹配原则。
代表性分词方法:正向最大匹配法、逆向最大匹配法、双向匹配法、全切分法、最少切分法。
优点:算法简洁,易于实现,切分速度快,需要较少的语言资源
缺点:不能很好的处理分词歧义,不能识别各种未登录词
您可能关注的文档
最近下载
- 2025上海闵行区古美路街道招聘社区综合协管员18人考试参考试题及答案解析.docx VIP
- 2025年文职人员招聘考试公共科目知识点试题.docx VIP
- (完整word版)九宫格数独及答案(18道).docx VIP
- 广东省深圳市罗湖区2024-2025学年九年级上学期11月期中考试数学试题(含答案).pdf VIP
- 6.2 学会依法办事教学课件(共27张PPT)-初中道德与法治统编版(2024)八年级上册.pptx VIP
- 医疗陪诊创业计划书模板.pptx VIP
- 贵州大学论文模版封面.doc VIP
- 第一单元(教学课件)-【大单元教学】五年级语文上册同步备课系列(统编版).pptx VIP
- 单元工程施工质量检验表与验收表(样表:1土石方工程)(SLT 336—2025)水土保持工程质量验收与评价规范.docx VIP
- 技能认证焦炉调温工知识考试(习题卷18).pdf VIP
原创力文档


文档评论(0)