网站大量收购独家精品文档,联系QQ:2885784924

基于微博内容的新词发现方法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于微博内容的新词发现方法.pdf

第27 卷  第2 期                          模式识别与人工智能                              Vol.27  No.2   2014年2月                                PR AI                                    Feb.  2014                                                                                             基于微博内容的新词发现方法∗ 霍  帅    张  敏    刘奕群    马少平 (智能技术与系统国家重点实验室  北京 100084) (清华信息科学与技术国家实验室(筹)  北京 100084) (清华大学 计算机科学与技术系  北京 100084) 摘  要  新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出 引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入 自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提 高,F-值提高到89.6%. 关键词  新词发现,上下文熵,未登录词提取 中图法分类号  TP391.1 New Words Discovery in Microblog Content HUO Shuai,ZHANG Min,LIU Yi-Qun,MA Shao-Ping (State Key Laboratory of Intelligent Technology and Systems,Beijing 100084) (Tsinghua National Laboratoryfor Information Science and Technology,Beijing 100084) (Department of Computer Science and Technology,Tsinghua University,Beijing 100084) ABSTRACT New words discovery is of great significance in the field of natural language processing. It is more difficult to findnewwordsinmicroblogthaninothercorpus. Inthispaper,analgorithmbasedoncontext entropy is proposed, and the new word candidates are filtered based on the context. To improve the precision,lexical features are introduced and an algorithm combining them with term frequency is put forward. Thus,theprecisionrateandtherecallratearegreatly improved,andtheF-measurevalueisup to 89.6%. Key Words  New Word Discovery,Context Entropy,Unknown Words Extraction 1  引  言 方语言,词与词之间有固定的分隔符,因此中文自动 分词往往作为中文信息处理任务最开始的一个重要 在中文信息处理

文档评论(0)

我的文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档