分词概述学习.pptxVIP

下载本文档

4
0
约2.7千字
约 24页
2022-10-09 发布于上海
举报
版权申诉

分词概述学习.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

什么是分词？分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是中文信息处理的基础。应用广泛：文本分类，文本挖掘，机器翻译，信息检索。第1页/共24页什么是分词？分词实例日本国债期货周五 ( 3月 19日 ) 小幅走高，市场仍然猜测日本央行 ( Bank of Japan ) 会再度承受压力，在未来数月进一步放松货币政策。主力三月日本国债期货收于 138.63 ，上涨 0.08 。第2页/共24页分词主要问题分词规范问题歧义处理问题未登录词问题第3页/共24页分词规范汉语是字的序列，词与词之间没有间隔标记，这使得词的界定缺乏自然标准。分词结果是否正确需要一个通用、权威的分词标准来衡量。分词标准问题实际上是汉语词与语素，词与词组的界定问题，这是汉语语法的一个基本、长期的问题。第4页/共24页分词规范分词规范难于制定的原因: “词”的概念不清晰： “词”的概念，汉语语言学界一直争论不休，迄今没有定论 “词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题，仍然没有解决。第5页/共24页分词规范分词规范难于制定的原因不同应用造成对分词单位认识的差异键盘输入系统：“这是” 、“不多” 、“每一” 检索系统：“古典数论” 、“计算语言学” 第6页/共24页分词规范现有分词规范: 《信息处理用现代汉语分词规范》《现代汉语语料库加工规范—词语切分与词性标注》《资讯处理用中文分词规范》《973当代汉语文本语料库分词、词性标注加工规范》第7页/共24页切分歧义歧义在汉语中普遍存在，形式上相同的一段文字，在不同的场景或语境中，可以有不同的切分结果。切分歧义是汉语自动分词中不可避免的一个问题，对歧义的处理能力将直接影响汉语自动分词的切分精度。第8页/共24页切分歧义歧义产生的根源：由自然语言的二义性引发的歧义,称之为第一类歧义。这类歧义即使人工分词也会产生歧义，只有结合上下文才能给出正确切分。羽毛球拍卖完了羽毛球/拍卖/完/了羽毛/球拍/卖/完/了第9页/共24页切分歧义歧义产生的根源：由机器自动分词产生的歧义，称之为第二类歧义。这类歧义的是由机器自动分词造成的，人工分词不会产生歧义。李建国家里有一台家用电器正确切分为：李建国/家/里/有/一台/家用/电器逆向最大匹配切分为：李建/国家/里/有/一台/家用/电器第10页/共24页切分歧义歧义字段分类：含有切分歧义的汉字串称为歧义字段，主要分为两类：交集型歧义组合型歧义第11页/共24页切分歧义歧义字段分类：交集型歧义汉字串ABC既可以切分成AB/C形式也可以切分成A/BC形式，其中AB是词，BC也是词。 “不合理” 、“和服装” 组合型歧义对于汉字串AB，既可以切分成AB形式，也可以切分成A/B 形式，其中A，B和AB都是词典中的词。 “才能” 、“将来” 、“马上” 第12页/共24页切分歧义歧义：上述两种歧义为比较典型的歧义，其中交集型歧义约占全部歧义的85%以上。组合型歧义的消解难度较大，需要上下文的语法、语义信息，而这些信息的获得首先需要正确分词，形成了一种互相依赖的关系。第13页/共24页未登录词简称OOV(Out-of-Vocabulary)，即未包括在分词词典中但必须切分出来的词。统计发现，未登录词造成的分词精度失落比切分歧义造成的精度失落至少大五倍以上。第14页/共24页未登录词未登录词分类：新涌现的普通词汇或者专业术语，如“微博”、“给力” 专用名词，如中国人名，外国译名，地名，组织机构名第15页/共24页未登录词前一类未登录词理论上是可预期的，能够预先添加到词表中后一类未登录词完全不可预期，由于人名、地名、机构名数量太多，不可能全部收录到词典中。对未登录词的研究主要集中在第二类。第16页/共24页分词方法基于规则的方法基于统计的方法第17页/共24页基于规则的方法又称为机械分词方法。该方法三个要素：分词词典、文本扫描方向和匹配原则。代表性分词方法：正向最大匹配法、逆向最大匹配法、双向匹配法、全切分法、最少切分法。优点：算法简洁，易于实现，切分速度快，需要较少的语言资源缺点：不能很好的处理分词歧义，不能识别各种未登录词

您可能关注的文档

文档评论（0）

kuailelaifenxian + 关注: 官方认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体太仓市沙溪镇牛文库商务信息咨询服务部

IP属地上海

统一社会信用代码/组织机构代码: 92320585MA1WRHUU8N

1亿VIP精品文档

更多 >

分词概述学习.pptxVIP