一种新词检测的方法的研究.docVIP

下载本文档

2
0
约6.92千字
约 14页
2018-10-11 发布于福建
举报
版权申诉

一种新词检测的方法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新词检测的方法的研究

一种新词检测的方法的研究　　智能信息技术是运用人工智能领域的方法来管理和处理各种数据和信息的技术总称。随着大数据时代的到来，智能信息技术能更好地适应和满足数据存储、传输和处理的实际需要。　　本期《数字通信》以“智能信息技术”为专题，约请数位博士、教授撰写学术论文，从理论模型、具体算法和实际应用等几个不同的层面进行综合分析或具体研究，以供业界同仁参考。　　摘要：汉语自动分词是进行中文信息处理的基础。目前，困扰汉语自动分词的一个主要难题就是新词自动识别，尤其是非专名新词的自动识别。同时，新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法，该方法混合了互信息、信息熵及词频等3个评价指标评价新词，并在此基础上添加了垃圾串过滤机制，大幅度提高了新词识别准确率和召回率。　　关键词：新词；互信息；信息熵；词频；垃圾串　　中国分类号：TP391.1文献标识码：A文章编号2013 　　0引言　　随着互联网的发展，人们渐渐步入了海量信息时代。这些海量信息中，大约有90%是以文字为载体，进行着输入、输出、存储、加工、传输、交换、检索、提取、过滤等一些处理工作。如果这些工序都依靠人工进行处理，显然是极其耗时耗力的，并且有的工作仅仅依靠人工是不可能完成的。中文分词是自然语言处理的第一步，也是极其重要的一步，有些上层应用对分词精度有很高的要求。新词检测技术是汉语自动分词中的重要支撑技术，它的发展能够有效地促进文本挖掘、信息检索、人机交互、字符识别、文本校对及机器翻译等相关领域的技术进步，具有重要的研究意义和应用价值[12]。　　什么样的词才算新词，对于这个问题学术界并没有统一的看法。本文并不试图为新词做一个明确的定义，只从中文信息处理的角度研究新词的特征。计算语言学界比较常见的新词是指未在中文分词词典中收录的词，也被称为未登录词或者未知词，在本文中，未登录词等同于新词，后文中将不再赘述。由于未登录词的存在，任何一部词典都不可能完备，所以新词检测是中文分词中不能避免的问题[34]。　　1相关研究工作概述　　目前的新词发现方法一般采用基于规则或基于统计的方法。基于规则的方法研究新词的内部构成语法规则或者新词的前缀后缀规则，以此为准则形成规则库，从而发现新词。基于统计的方法着重寻找描述新词特征的统计量，如成词概率、互信息、刚性等，通过设定阈值挑选统计量大于阈值的词作为新词。　　刘建舟[5]用到了互信息和Loglikelihood ratio 2个参数的改进形式。韩艳[6]提出了一种基于网络资源的未登录词的扩展识别方法。该方法以左右邻信息判断未登录词边界，对已识别出的二元候选未登录词种子进行扩展，从而得到不限长度的更完整的新词。崔世起[7]提出了一种基于大规模语料库的新词检测方法，首先在大规模的Internet语料上进行中文词法切分，然后在分词的基础上进行频度统计，得到大量的候选新词。　　使用基于规则的方法，新词检测的准确率较高，但如果人工提取规则，会消耗大量的人力，而且规则的覆盖性不太好，随着新词的不断产生，需要不断地添加规则。如果使用自动提取规则，规则的有效性则得不到保证。使用统计的方法，利用频度信息来确定新词，则会引入许多频度较高的垃圾串。可见，仅使用一种方法，新词识别率相对较低。而将规则和统计相结合来发现新词，既能保证新词检测的准确率，又能保证新词检测的效率[8]。　　2准备工作　　新词检测方法一般分为基于统计和基于规则两大类，我们首先介绍基于统计的方法。基于统计的方法中，最简单的统计量就是词频。大多数人会理所当然的认为出现得多的文本片段就是词组，反之则不是，这种想法显然是不正确的。如在1998年人民日报语料库中，“的赞誉”共出现了328次，“赞誉声”仅出现了165次，“的赞誉”比“赞誉声”多了163词，几乎是后者的2倍，我们却更倾向于将“赞誉声”当作一个词，因为直觉上看，“赞誉”和“声”联系更紧密一些。　　为了证明“赞誉”和“声”确实联系更紧密，我们使用了信息论中的互信息和信息熵这2个信息度量，能反映词语之间的联合程度。　　2.1互信息　　利用上述互信息定义，我们在语料库中搜索，“赞誉”一词共出现了22次，“的”共出现了35 716次，“的赞誉”共出现了10次，“声”共出现了1 887次，“赞誉声”共出现了5次，则“的赞誉”的互信息值为5.64，“赞誉声”的互信息值为8.94，故“赞誉声”的紧密度更高，符合我们的猜想。　　当然上述计算方法并不十分完美，因为“赞誉声”也有可能是“赞”和“誉声”形成，这就跟切词有较大的关系。有时错误的切分方法会过高地估计该片段的紧密度。所以使用“赞誉”和“声”的互信息值与“赞”和“誉