- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种相关话题微博信息的筛选规则学习算法.pdf
第 26 卷第5 期 中文信息学报 Vo l. 26 , No. 5
2012 年 9 月 JOURNAL OF CHINESE INFORMATION PROCESSING Sep. , 2012
编者按:中国中文信息学会于 2011 年 10 月在山东济南召开第七届全国信息检索学术会议。会
议的程序委员会向本刊推荐了一批优秀论文,编辑部得到授权,又请专家审阅,并请作者修改,其中
的 16 篇在本期发表,以飨读者。
文章编号: 1003-0077(2012)05-0001-06
一种相关话题微博信息的筛选规则学习 玄 牛
莫溢,刘盛华,如j 悦,程学旗
(中国科学院计算技术研究所,北京 100190)
摘 要:微博作为一种新型的社会媒体,以其信息的高实时性、话题动态关注、传播速度快的特点,逐渐被人们所接
受和使用。筛选出相关话题的微博信息,帮助用户关注话题的动态发展,成为迫切需要解决的问题。由于微博信
息篇幅极短、包含的信息和特征少等特点,为相关话题微博信息的筛选带来了新的挑战,而传统的文本分类技术已
不再适用。该文提出了基于信息煽的筛选规则学习算法,利用学习得到的规则对微博信息进行有效的筛选。算法
利用信息煽来许价规则的好坏,同时基于模拟退火的随机策略使算法中的规则选择避免了过于贪心。分别通过来
自新浪微博的约九万条标i主数据和 TREC2011 中约三千条特定话题的标注数据进行实验.该文算法相比于 CPAR
和 SVM 算法,学习得到的规则在筛选时取得了较高的 F 值。
关键词:微博信息筛选;规则学习;信息煽
中图分类号: TP391 文献标识码:A
An Entropy-Based Rule Mining Algorithm for Filtering Tweets by Topics
岛10 Yi , LIU Shenghua , LIU Yue , CHENG Xueqi
CInstitute of Computing Technology , Chinese Academy of Sciences , Beijing 100190 , China)
Abstract: Microblog as a new social media plays more and m口re important role in current life due to its real time.
trends and spreading of information. The issue that filtering tweets according to a concerning topic for tracking its
trends is of substantial significance to the users. Since a tweet is extremely short , containing less information and
textual features , how to filter the short tweets becomes a challenge in that the traditional text classification is no lon-
ger applicable. 1n this paper , we prop口sed a entropy-based classification rule learning algorithm to filter tweets by
topics. The experimental results on nearly 90 000 tweets and
原创力文档


文档评论(0)