基于大规模语料的中文新词抽取算法的设计与实现-计算机应用技术专业论文.docxVIP

下载本文档

12
0
约5.08万字
约 60页
2019-02-20 发布于上海
举报
版权申诉

基于大规模语料的中文新词抽取算法的设计与实现-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

；l ；l 1 1 II II II I II I I II II {Y1 91 961 摘要中文新词抽取是中文信息处理的基础研究，抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中，为尽可能多地抽取到新词，本文研究针对大规模语料进行。首先在综合已有定义的基础上，将新词界定为不含命名实体的未登录词。本文将整个抽取过程分成候选新词集合构造和新词检测两部分。在构造候选新词集合时，为处理规模远超出内存的语料，设计了重复串抽取算法 (Repeats Extraction Based Split，REBS)。先将语料按后缀首字符划分为多个集合，通过逐条扫描集合数据，搜索出最大化最长公共前缀区间(Maximized Longest Common Prefix Interval，MLCPI)来完成抽取，另外在此基础上实现重复串抽取的同时归并子串。由于进行抽取时无需将全部数据导入内存，所以资源消耗较少；各集合间抽取工作互不干扰，可采用并行处理加快运行速度。使用4．61G纯文本语料进行试验，结果表明内存消耗小于30M，抽取速度最快达每秒1．08M，并能高效地进行子串归并。为提高重复串抽取速度，本文对字串排序效率进行了改进，设计了一种线性时间排序算法，通过比较实验证明了该算法的高效性。新词检测阶段，在最大熵模型中，融合多项语言知识特征和统计特征，实现对非词垃圾串的过滤，并通过实验验证了该方法的有效性。为提高大规模语料下的新词检测速度，对左右熵特征的抽取效率进行改进，该改进算法充分利用重复串抽取的中间处理结果，能高效地对候选新词进行左右熵特征计算。最后在本文研究基础上，设计新词抽取算法，实现了一个新词抽取系统NWES。关键词：新词检测，重复串，子串归并，最大熵模型 1Abstract 1 Abstract 硕士论文 Abstract Chinese new word extraction is an essential research of Chinese information processing domain，the extracted new word could be directly applied in Chinese word segmentation, building dictionary and SO on．Because new word dispersed in huge information,in order to extract more as better as we can，this paper’S research object is large scale corpus． The first，on the basis of existed new word’S definition，in this paper the words which are out of dictionary and not named entity are regarded as new words．We divide the extracting course to two parts，new word candidate collection construction and new word detection． And then，when constructing new word candidate collection,we design a repeat鲥ng extraction algorithm which named REBS，in order to deal with corpus which is larger than computer memory．Firstly,on the basis of the first character of suffix，we partition corpus into multiple sets，and then introduce a concept of Maximized Longest Common Prefix Interval (MLCPI)，by means of searching it while scanning data in sets item by item，we accomplish the task．Besides，we reduce sub