33基于边界自由度的新词发现.doc

下载文档 降价啦

7
0
约8.32千字
约 7页
2017-08-12 发布于天津
举报
版权申诉
保障服务

33基于边界自由度的新词发现.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

33基于边界自由度的新词发现

基于词内部结合度和边界自由度的新词发现* 李文坤，张仰森，陈若愚北京信息科技大学智能信息处理研究所，北京100192 摘要：新词发现作为自然语言处理领域的一项基础研究，一直受到学术界和企业界的广泛关注。本文将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词，然后统计“散串”，最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验，验证了该方法的有效性。今后的研究重点将放在如何有效的识别低频新词上，以提高系统的整体性能。关键词：新词发现;内部结合度;边界自由度 New word detection based on inner combination degree and boundary freedom degree of word Wenkun Li，Yangsen Zhang，Ruoyu Chen Institute of Intelligence Information Processing, Beijing information Science and Technology University Beijing 100192 Abstract: New word detection, as a basic research in natural language processing, has gain extensive concern from academic and business communities. In this paper, the new word detection problem is equal of word boundary determine problem. First, segmented the corpus and counted up the statistical information of “the scattered words” in the corpus. Then, proposed a new word detection method based on inner combination degree and boundary freedom degree of words. Experimental results on large-scale corpus verified the effectiveness of this method. Future research will focus on how to effectively identify low-frequency words and improve the overall performance of the system. Keywords: new word detection; inner combination degree; boundary freedom degree 1 引言在英语等很多西方语言的书面表达中，词与词之间是以空格、标点等符号显式分隔的，因此并不存在分词的问题。然而汉语的书面表达是以连续的汉字串形式表示的，词与词之间没有明确的分隔标记，因此，汉语自动分词是自然语言处理领域中的一项非常重要的基础性工作。随着互联网技术的发展和移动终端的普及，以及微博等社交媒体的出现，涌现了大量的新词，新词的出现使现有分词软件的分词准确率明显降低。据统计显示[1]，60%的分词错误是由新词导致的。因此，如何有效的发现新词，对提高中文分词的分词效果有重要作用。同时，网络产生的新词能够反映社会热点事件，反映当下社会生活，传播极其迅速，影响非常广泛。这些新词同热点事件的热度变化有相同趋势，随热点事件的出现而出现，消亡而消亡。所以，快速高效的发现新词有助于了解社会动态，提高政府的工作效率，具有重要的意义。 2 新词发现的研究现状目前，新词发现主要有基于统计的新词发现和基于规则的新词发现两大类方法[7]。李明[2]利用改进后的Apriori算法对语料处理并生成关联规则，然后利用关联规则抽取新的专业词汇。陈飞[3]等归纳了许多区分新词边界的统计特征，利用CRF方法并综合这些特征在SogouT大规模语料上进行新词发现实验，有较好的效果。周春波[4]通过对用户查询日志进行分析，并利用N元递增分布算法对用户查询日志进行新词发现，有效识别了新的商品词。Peng[5]将词汇特征和领域知识特征融入到模型中，利用CRF训练，进而识别新词。Zhang[6]引入了角色的概念，首先自动获取角色，然后利用 Viterbi 算法进行角色标注，根据模式匹配生成新词候选集，最后用规则过滤生成最终的新词集合。吴悦[7]等综合前、背景语料的二元似然比挑选