分词概述学习.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么是分词? 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 中文分词是中文信息处理的基础。 应用广泛:文本分类,文本挖掘,机器翻译,信息检索。 第1页/共24页 什么是分词? 分词实例 日本 国债 期货 周五 ( 3月 19日 ) 小幅 走 高 , 市场 仍然 猜测 日本 央行 ( Bank of Japan ) 会 再度 承受 压力 , 在 未来 数月 进一步 放松 货币 政策 。 主力 三月 日本 国债 期货 收 于 138.63 , 上涨 0.08 。 第2页/共24页 分词主要问题 分词规范问题 歧义处理问题 未登录词问题 第3页/共24页 分词规范 汉语是字的序列,词与词之间没有间隔标记,这使得词 的界定缺乏自然标准。 分词结果是否正确需要一个通用、权威的分词标准来衡 量。 分词标准问题实际上是汉语词与语素,词与词组的界 定问题,这是汉语语法的一个基本、长期的问题。 第4页/共24页 分词规范 分词规范难于制定的原因: “词”的概念不清晰: “词”的概念,汉语语言学界一直争论不休,迄今没有定论 “词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题, 仍然没有解决。 第5页/共24页 分词规范 分词规范难于制定的原因 不同应用造成对分词单位认识的差异 键盘输入系统:“这是” 、“不多” 、“每一” 检索系统:“古典 数论” 、“计算 语言学” 第6页/共24页 分词规范 现有分词规范: 《信息处理用现代汉语分词规范》 《现代汉语语料库加工规范—词语切分与词性标注》 《资讯处理用中文分词规范》 《973当代汉语文本语料库分词、词性标注加工规范》 第7页/共24页 切分歧义 歧义在汉语中普遍存在,形式上相同的一段文字,在 不同的场景或语境中,可以有不同的切分结果。 切分歧义是汉语自动分词中不可避免的一个问题,对歧 义的处理能力将直接影响汉语自动分词的切分精度。 第8页/共24页 切分歧义 歧义产生的根源: 由自然语言的二义性引发的歧义,称之为第一类歧义。这类歧义即使人工分词也会产生歧义,只有结合上下文才能给出正确切分。 羽毛球拍卖完了 羽毛球/拍卖/完/了 羽毛/球拍/卖/完/了 第9页/共24页 切分歧义 歧义产生的根源: 由机器自动分词产生的歧义,称之为第二类歧义。这类歧义的是由机器自动分词造成的,人工分词不会产生歧义。 李建国家里有一台家用电器 正确切分为:李建国/家/里/有/一台/家用/电器 逆向最大匹配切分为: 李建/国家/里/有/一台/家用/电器 第10页/共24页 切分歧义 歧义字段分类: 含有切分歧义的汉字串称为歧义字段,主要分为两类: 交集型歧义 组合型歧义 第11页/共24页 切分歧义 歧义字段分类: 交集型歧义 汉字串ABC既可以切分成AB/C形式也可以切分成A/BC形式 ,其中AB是词,BC也是词。 “不合理” 、“和服装” 组合型歧义 对于汉字串AB,既可以切分成AB形式,也可以切分成A/B 形式,其中A,B和AB都是词典中的词。 “才能” 、“将来” 、“马上” 第12页/共24页 切分歧义 歧义: 上述两种歧义为比较典型的歧义,其中交集型歧义约占全部歧义的85%以上。 组合型歧义的消解难度较大,需要上下文的语法、语义信息,而这些信息的获得首先需要正确分词,形成了一种互相依赖的关系。 第13页/共24页 未登录词 简称OOV(Out-of-Vocabulary),即未包括在分词词典中 但必须切分出来的词。 统计发现,未登录词造成的分词精度失落比切分歧义造 成的精度失落至少大五倍以上。 第14页/共24页 未登录词 未登录词分类: 新涌现的普通词汇或者专业术语,如“微博”、“给力” 专用名词,如中国人名,外国译名,地名,组织机构名 第15页/共24页 未登录词 前一类未登录词理论上是可预期的,能够预先添加到词 表中 后一类未登录词完全不可预期,由于人名、地名、机构 名数量太多,不可能全部收录到词典中。 对未登录词的研究主要集中在第二类。 第16页/共24页 分词方法 基于规则的方法 基于统计的方法 第17页/共24页 基于规则的方法 又称为机械分词方法。该方法三个要素:分词词典、文本扫描方向和匹配原则。 代表性分词方法:正向最大匹配法、逆向最大匹配法、双向匹配法、全切分法、最少切分法。 优点:算法简洁,易于实现,切分速度快,需要较少的语言资源 缺点:不能很好的处理分词歧义,不能识别各种未登录词

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档