中文分词研究与实现答辩ppt.pptVIP

下载本文档

32
0
约1.71千字
约 20页
2018-06-27 发布于福建
举报
版权申诉

中文分词研究与实现答辩ppt.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词研究与实现答辩ppt

中文分词的研究与实现壹贰叁肆伍陆前言中文分词的简介基本中文分词算法中文分词词典算法的实现分词算法的发展研究背景伴随的科技的发展，信息时代的来临，人们可以查询和检索的各类中文信息日渐增多，如何找到自己想要的资源成为一个非常重要的研究课题。在当今时代，出现了各种自动化的方法，这种自动化的处理方法可以帮助人们检索、管理信息，来解决现实问题。目前已经出现了很多自动化的技术，例如自动摘要、自动检索等语言处理技术，在这些技术里的一个关键点是主题词，正确地提取主题词有助于简化此类工作，而如何找到主题词正是中文分词技术的研究范畴。第一章前言中文分词的发展自80年代初，中文信息处理领域提出了自动分词以来，一些实用性的分词系统逐步得以开发，北京航空航天大学计算机系实现了第一个实用的自动分词系统，之后，清华大学，复旦大学，哈尔滨工业大学等学校相继完成了自己的分词系统。第二章中文分词的简介 2.1中文分词的概念及应用分词就是利用计算机识别出文本中词汇的过程。在英文中，词汇之间一般会有空格等比较明显的分隔符。而中文中，是以字为基本书写单位，只有段与段、句与句之间有分隔符，而词汇之间没有分隔符，所以，中文分词比英文要复杂很多互联网功能的实现都需要分词，例如汉字处理、信息检索、内容分析和语音处理等方面。 2.2 中文分词的目标准确性准确率是分词系统性能中最重要的核心指标运行效率分词是各种汉语处理应用系统中共同的、基础性的工作，这步工作消耗的时间应尽量少。通用性自动分词系统应支持不同地区的中文字符处理适用性可以方便地集成在各种各样的汉语信息处理系统中。 2.3 中文分词的基本问题分词规范：词需要有清晰的定义，因此我们需要有一个核心词典歧义识别歧义是汉语中普遍存在的问题，因此切分歧义词也是汉语分词中的一大难题。形式上相同的一段文字，在不同的场景或语境中，可以切分出不同的结果，有不同的含义。未登录词在文本处理过程中，会遇到很多词典中未囊括的词语。这些词就是未登录词。第三章基本的中文分词算法 3.1 基于词表的分词算法正向最大匹配算法逆向最大匹配算法临近匹配算法最短路径算法 3.2 基于统计模型的分词算法最大概率的分词算法 N—最短路径算法不同分词方法的比较最大匹配分词算法是一种简单的基于词表的分词算法，有着非常广泛的应用。这种方法只需要很少的语言资源，程序实现简单，开发周期短，是一个简单实用的方法。但其对歧义字段的处理能力还不够强大。全切分方法的优点是可以发现所有的切分歧义，但解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法，需要大量的标注语料，并且分词速度也因搜索空间的增大而减缓。最短路径分词方法的切分原则是使切分出来的次数最少。这种切分原则多数情况下符合汉语的语言规律，但无法处理例外的情况，而且如果最短路径不止一条时，系统往往不能确定最优解。第四章中分分词词典 4.1 词典的索引 Hash索引 Hash函数是一个映像，其将关键字的集合映射到某个地址的集合。用Hash表的方法构造词典就是将关键字与表项的存储位置建立一个对应的函数关系 Trie树 Trie树又称前缀树。它是一棵度=2的树，树中的每个结点中不是包含一个或几个关键字，而是只含有组成关键字的符号 4.2 常用的词典机制基于整词二分法的词典基于Trie 索引树的词典第五章正向最大匹配算法的实现 5.1正向最大匹配算法首先读入一段文子，取出标点符号，这样句子就被分成相应的若干段，然后对每一段进行词典的匹配，如果没有匹配成功就从段末尾减去一个字，再进行匹配，重复上述过程，直到匹配上词典上的某个词组或只剩下一个字符，接着将句子剩余的部分重复上述流程，直到将句子全部分解成原子或词典中存在的词组。流程图匹配过程