基于海量信息过滤的微博热词抽取方法①-计算机系统应用.pdf

基于海量信息过滤的微博热词抽取方法①-计算机系统应用.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于海量信息过滤的微博热词抽取方法①-计算机系统应用

2012 年 第 21 卷 第 11 期 计 算 机 系 统 应 用 基于海量信息过滤的微博热词抽取方法① 1 1 2 汪 洋 , 帅建梅 , 陈志刚 1( 中国科学技术大学 信息科学技术学院, 合肥 230027) 2(安徽科大讯飞信息科技股份有限公司 研究院, 合肥 230088) 摘 要: 针对海量微博信息, 提出一种多步骤的热词抽取方法. 首先, 选择用户行为特性、微博信息的文本特征 构建用户行为模型, 并在此基础上提出一种基于规则的话题树生成过滤算法, 筛除了微博中大量无关信息, 进而 对生成的话题树修剪优化; 然后, 根据话题树的节点内容, 使用词频及其波动特性设计热词抽取算法, 获取微博 的热词信息. 实验数据表明, 该方法能大大减小输入的数据规模, 同时较好的保留重要信息, 有效实现热词抽取. 关键词: 中文微博; 用户行为模型; 海量信息过滤; 热词抽取; 幂律分布 Hot Word Extraction for Microblog Based on Massive Data Filtering 1 1 2 WANG Yang , SHUAI Jian-Mei , CHEN Zhi-Gang 1(School of Information Science and Technology, Science and Technology of China, Hefei 230027, China) 2(iFLYTEK Research, Hefei 230088 China) Abstract: This paper presents a Chinese microblog hot words extraction algorithm based on massive data Filtering. Firstly, it chooses the user behaviour characteristics and text characteristics to create user behavior models, and filters massive data to create topic-trees by a fast algorithm based on rules. Then, it uses hot words extraction algorithm to get the hot topic of topic-trees by word frequency feature. The experiment results show that the proposed algorithm can reduce the scale of the input data, with keeping lots of important information to extract hot words. Key words: Chinese microblog; user behavior models; massive data filtering; hot word extraction; power law distribution 1 概述 博的信息长度被限制在较小范围内(一般不超过 140 字), 微博(microblog)正在成为互联网中越来越重要的 使得每条微博包含的信息量相对一篇新闻或博客大大减 信息交流平台, 以新浪微博为例, 根据新浪 2011 年第 少; 其次, 发布微博的门槛被大大降低, 任何人都可以 四季度财报, 其注册用户已经突破 3 亿大关, 用户每 发表内容而不必具有专业的文学撰写水平;

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档