- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分词词典的构造
分词词典的构造与实现
摘要
分词词典的构造主要考虑分词词典的数据结构与查询算法的时空消耗问题。
分词词典是汉语自动分词系统的一个基本组成部分[1] 。自动分词系统所需要的各类信息(知识) 都要从分词词典中获取,分词词典的查询速度直接影响到分词系统的速度。在机器翻译系统中, 词典也占据极其重要的地位。机器翻译的各个过程, 从自动分词、语法分析、语义分析到译语生成等均需要频繁地访问词典。词典结构及词条中所包含的信息量直接影响整个机器翻译系统的效率。词典的组织既要考虑到汉语分词, 又要照顾到分析与生成。既要考虑节省空间, 又要照顾系统的运行速度。 因此,词典的设计对机器翻译系统至关重要, 越来越受到人们的重视。
一方面,现实应用(如因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转换系统的前处理等) 均对分词速度提出了迫切要求,因此建立高效快速的分词词典机制势在必行。另一方面,在词典规模不大的时候,各种词典查询算法对汉语词法分析的效率整体影响并不大。不过当词典规模很大时(几十万到上百万数量级),词典查询的时空开销会变得很严重,此时,好的词典算法就能大大降低查询成本,因此就需要详细设计一个好的词典查询算法才能解决出现的如:延迟,内存不足等应用问题。
本文阐述一种面向机器翻译系统的分词词典的构造于实现。通过对已有词典的查询算法的研究,深入分析了现存各种算法的优缺点。根据理论上优秀的trie结构搜索树方法的研究,实现了一个快速的分词词典即:Double-Array双数组结构词典。为了便于比较,我们将该算法和另一个基于trie结构的查询算法即:PAT树结构的词典算法进行了比较,详尽的分析了该算法的实现机理和实现方法。从试验当中证明了该算法的优越性。最终的试验结果表明,它的查询速度是PAT tree结构的三倍,并且空间占用率较低,能提供更快的检索速度,可以满足更高的现实要求。
本文的研究成果可以应用到自动分词,在线翻译,信息检索,网络搜索引擎等自然语言处理系统中和现实应用系统中去,可以满足更大规模的语料处理,提高现有的各种系统的性能。
关键词:分词词典 trie 双数组 PAT 词典算法 Double-Array
Construction and Realization on Dictionary Mechanism for Chinese Word Segmentation
Abstract
目录
前言
目录
自然语言处理的基本要求
自然语言处理的概念
自然语言处理当中分词的重要性
自然语言处理当中所要求的分词词典具有的功能
现在有的分词方法,性能。
对各种分词方法的考量
性能分析
Double-Array结构的词典性能
词典的制作方法
性能分析
展望
参考文献,
附录
引言
1.1课题的提出
本论文属于自然语言处理的范畴。所谓自然语言处理(NLP, Natural Language Processing)就是用机器处理人类语言的理论和技术。那么什么是自然语言呢?我们在这里给出了由《新华词典》给出的定义:就是“以语音为物质外壳,由词汇和语法两部分组成的符号系统。”在这里我们可以看到,词汇和语法是构成自然语言的主要两个基本要素,本文就是针对其中的一个基本要素“词汇”做的一些研究工作,通过对它的分析研究,才能进一步提高了对自然语言处理的认识。
我们知道,分词词典是不同于电子词典的,分词词典不包括电子词典当中的一些基本的汉字,它的主要作用是用来将语句切分成为一个一个的语素(词),用来表达一定的意义,并获得该词的一些附加信息,如词性、特殊用法、句子中所起的作用等等于句子构成相关的信息。而电子词典则不同,它不是用来在句子当中切分语素的,而是查询是否存在该词或该字,从而获取该字词的意义的一种软件工具,它与分词词典的作用明显不同。自动分词是中文信息处理诸多应用系统的一个不可或缺的模块。它是自然语言处理的重要组成部分,它的质量的好坏直接影响到下一步的语法分析、句法分析、组块分析等,因此,构造一个好的分词词典是实现高质量自然语言处理应用系统的关键部分。好的分词词典可以简化处理过程中出现的复杂问题,如兼类词问题、歧义问题和未登陆词识别等问题,对于译文质量的提高大有帮助。
实验室现有的词典是基于分块索引的查询策略,各个块内部按照大小顺序排序,通过索引和二分法进行查询,该方法的索引结构简单,但它的查询策略是基于字符串的比较,因而词典的查询速度提高的缓慢。为了提高对现有翻译系统的译文质量的提高,改进性能,提高现有的查询速度,改变查询词的附加信息结构,便于分词实验研究,我们制作了这一个基于Double-Array双数组结构的查询词典,并将该词典应用到实现中去,来改变以往的查询策略,提高性能。
1.2分词词典的作用
众所
文档评论(0)