现代汉语名词槽关系系统中横类型的研究和设计-计算机应用研究.docVIP

现代汉语名词槽关系系统中横类型的研究和设计-计算机应用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语名词槽关系系统中横类型的研究和设计-计算机应用研究.doc

PAGE PAGE 7 基于词内部结合度和边界自由度的新词发现* *基金项目:本文承国家自然科学基金项目(项目编号、北京市属高等学校创新团队建设与教师职业发展计划项目(IDH和北京市教委专项基金(PXM2013_014224_000042,PXM2014_014224_000067)的资助 作者简介:李文坤(1991-),男(汉族),山西省朔州市怀仁县人,硕士研究生,主要研究方向为自然语言处理(Email:liwenkun0812@163.com);张仰森(1962-),男,博士后,教授,主要研究方向为自然语言处理、人工智能;陈若愚(1982-),男,博士,讲师,主要研究方向为自然语言处理。 李文坤,张仰森,陈若愚 北京信息科技大学智能信息处理研究所,北京100192 摘 要:新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。本文将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计“散串”,最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效的识别低频新词上,以提高系统的整体性能。 关键词:新词发现;内部结合度;边界自由度 New word detection based on inner combination degree and boundary freedom degree of word Wenkun Li,Yangsen Zhang,Ruoyu Chen Institute of Intelligence Information Processing, Beijing information Science and Technology University Beijing 100192 Abstract: New word detection, as a basic research in natural language processing, has gain extensive concern from academic and business communities. In this paper, the new word detection problem is equal of word boundary determine problem. First, segmented the corpus and counted up the statistical information of “the scattered words” in the corpus. Then, proposed a new word detection method based on inner combination degree and boundary freedom degree of words. Experimental results on large-scale corpus verified the effectiveness of this method. Future research will focus on how to effectively identify low-frequency words and improve the overall performance of the system. Keywords: new word detection; inner combination degree; boundary freedom degree 1 引言 在英语等很多西方语言的书面表达中,词与词之间是以空格、标点等符号显式分隔的,因此并不存在分词的问题。然而汉语的书面表达是以连续的汉字串形式表示的,词与词之间没有明确的分隔标记,因此,汉语自动分词是自然语言处理领域中的一项非常重要的基础性工作。随着互联网技术的发展和移动终端的普及,以及微博等社交媒体的出现,涌现了大量的新词,新词的出现使现有分词软件的分词准确率明显降低。据统计显示[1],60%的分词错误是由新词导致的。因此,如何有效的发现新词,对提高中文分词的分词效果有重要作用。同时,网络产生的新词能够反映社会热点事件,反映当下社会生活,传播极其迅速,影响非常广泛。这些新词同热点事件的热度变化有相同趋势,随热点事件的出现而出现,消亡而消亡。所以,快速高效的发现新词有助于了解社会动态,提高政府的工作效率,具有重要的意义。 2 新词发现的研究现状 目前,新词发现主要有基于统计的新词发现和基于规则的新词发现两大类方法[7]。李明[2]利用改进后的Ap

文档评论(0)

zhongshanmen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档