- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于海量信息过滤的微博热词抽取方法①-计算机系统应用
2012 年 第 21 卷 第 11 期 计 算 机 系 统 应 用
基于海量信息过滤的微博热词抽取方法①
1 1 2
汪 洋 , 帅建梅 , 陈志刚
1( 中国科学技术大学 信息科学技术学院, 合肥 230027)
2(安徽科大讯飞信息科技股份有限公司 研究院, 合肥 230088)
摘 要: 针对海量微博信息, 提出一种多步骤的热词抽取方法. 首先, 选择用户行为特性、微博信息的文本特征
构建用户行为模型, 并在此基础上提出一种基于规则的话题树生成过滤算法, 筛除了微博中大量无关信息, 进而
对生成的话题树修剪优化; 然后, 根据话题树的节点内容, 使用词频及其波动特性设计热词抽取算法, 获取微博
的热词信息. 实验数据表明, 该方法能大大减小输入的数据规模, 同时较好的保留重要信息, 有效实现热词抽取.
关键词: 中文微博; 用户行为模型; 海量信息过滤; 热词抽取; 幂律分布
Hot Word Extraction for Microblog Based on Massive Data Filtering
1 1 2
WANG Yang , SHUAI Jian-Mei , CHEN Zhi-Gang
1(School of Information Science and Technology, Science and Technology of China, Hefei 230027, China)
2(iFLYTEK Research, Hefei 230088 China)
Abstract: This paper presents a Chinese microblog hot words extraction algorithm based on massive data Filtering.
Firstly, it chooses the user behaviour characteristics and text characteristics to create user behavior models, and filters
massive data to create topic-trees by a fast algorithm based on rules. Then, it uses hot words extraction algorithm to get
the hot topic of topic-trees by word frequency feature. The experiment results show that the proposed algorithm can
reduce the scale of the input data, with keeping lots of important information to extract hot words.
Key words: Chinese microblog; user behavior models; massive data filtering; hot word extraction; power law
distribution
1 概述 博的信息长度被限制在较小范围内(一般不超过 140 字),
微博(microblog)正在成为互联网中越来越重要的 使得每条微博包含的信息量相对一篇新闻或博客大大减
信息交流平台, 以新浪微博为例, 根据新浪 2011 年第 少; 其次, 发布微博的门槛被大大降低, 任何人都可以
四季度财报, 其注册用户已经突破 3 亿大关, 用户每 发表内容而不必具有专业的文学撰写水平;
您可能关注的文档
- 衡水教育科学研究十二五规划课题衡水教育科学研究十二.doc
- 黑堡宣言-公共行政评论.pdf
- 合成生物学导论31常微分方程.ppt
- 侯友宜安抚歹徒情绪第三者谈判必要手段.doc
- 后现代公共行政凸显行政公共性的话语途径-华东经济管理.pdf
- 后台管理系统发布文章.ppt
- 后现代女性主义法学反思.pdf
- 后现代主义视角下广州城文化研究-广州社科联.pdf
- 后现代主义与后现代国际关系-复旦大学美国研究中心.pdf
- 后现代主义与现代化术.pdf
- 2024年光伏全球巡礼中国篇:供需失衡,何时出清.pdf
- 2024年服务消费行业分析报告:服务消费的时代交响,不畏浮云遮望眼,迭代发展进行时.pdf
- 2024年电子行业分析报告:Scaling+law依然有效,自研AI芯片后劲十足.pdf
- 2024年艾融软件分析报告:深耕金融IT领域,收购优质资产打开市场空间.pdf
- 2023年AIGC行业分析报告:GPT-4v如何实现强大多模态,从文生图到图生文.pdf
- 2023年电力辅助服务行业分析报告:重塑价值.pdf
- 2023年亚朵分析报告:体验驱动,中高端国民品牌.pdf
- 2023年钠离子电池行业分析报告:突破关键资源瓶颈,性能优势显著.pdf
- 2023年甲骨文分析报告:战略拐点已过,基本面回归上行趋势.pdf
- 2024年智能汽车行业分析报告:FSD入华在即,关注汽车数据闭环服务商.pdf
最近下载
- 肩关节磁共振诊断.ppt VIP
- 2024年7月6日江苏省泰州市(姜堰区、高港区)、兴化市、泰兴市事业单位考试《综合能力素质》笔试试题(含答案).pdf VIP
- 《“核心素养”视域下小学语文习作单元主题教学策略的研究》课题研究方案.doc
- 北碚区及15个街镇土地利用总体规划(2006-2020年)调整方案.doc
- 【语文】人教部编版语文八年级上册:古诗文理解性默写(完整版).pdf VIP
- 煤化工工艺学完整版电子教案全套教学课件汇总.pptx
- 磁共振成像原理及功能磁共振演示文稿.ppt VIP
- 中职《幼儿心理学》课程教学课件-项目二任务3 感知觉规律的运用.pptx VIP
- Hasselblad哈苏H6中文说明书.pdf
- (人教2024版)一年级数学上册《数学游戏》单元复习讲义.docx
文档评论(0)