《PWSWE:个人微博主题词提取算法的研究》.doc

《PWSWE:个人微博主题词提取算法的研究》.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第22卷第10期 计算机应用与软件 Vol.22, No.10 2005年10月 Computer Applications and Software Oct. 2005 计算机应用与软件 Computer Applications and Software 第 卷第 期 计算机应用与软件 Vol. No. 2005年1月 Computer Applications and Software Jan. 2005 PWSWE:个人微博主题词提取算法的研究 高永兵 周环宇 聂知秘 胡文江 (内蒙古科技大学信息工程学院 内蒙古 包头 014010) 个人微博 在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法 (Personal weibo subject word extraction algorithm ,PWSWE)。该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-IDF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题词。实验结果证明该算法提取的主题词具有较高的准确率和覆盖率。 主题词 PWSWE 中图分类号 TP392    文献标识码 A     DOI: PWSWE: PERSONAL WEIBO SUBJECT WORD EXTRACTION ALGORITHM RESEARCH Gao Yongbing Zhou Huanyu Nie Zhimi Hu Wenjiang (School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, Inner Mongolia,China) Based on the analysis of the traditional algorithm in short-text thematic words extraction ,the paper put forward a new personal weibo subject word extraction algorithm that involves non-mainstream text characteristics in personal weibo and runs in an incremental extraction pattern, firstly the concept of the popularity is introduced by forwards as well as comments and praises in weibo. Then we work out the serial similarity by calculating the coupling, timing and popularity .After that we improve the traditional TF - IDF function from the phenomenon of keywords Eigen value discrete .Finally we process and get the clue words on the fundament of the extraction results above .It shows that this algorithm has higher accuracy and coverage in subject word extraction . Personal weibo Subject word PWSWE  PAGE 6 计算机应用与软件 高永兵等:WWPE关于个人微博主题词提取算法的研究  PAGE 5 引 言 微博即微博客(MicroBlog)的简称,是近年来新兴起的,且发展迅速的新闻媒体。用户可以通过WEB、移动客户端等途径随时随地进行状态更新和信息分享。新浪是目前国内流行度最广的微博网站,根据2013年7月最新的数据统计显示,新浪微博注册用户已达到3.3亿,形成了微博庞大的数据量。 与常规文本相比,微博数据具有不规则性、海量性和实时性等特点。所以如何

文档评论(0)

1318384917 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档