- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于私人微博的主题词检测
咼永兵J周环宇/聂知秘
(内蒙古科技大学信息工程学院,内蒙古包头014010)
摘要:在分析传统的长文本的主题词检测算法的基础上,结合微博数据特有的文本特征, 提岀一种聚类-权重-提取(clustering weighting extraction CWE)模式的主题词检测方法。主 要综合考虑了微博数据转帖、评论、赞数、内嵌超链接(URL),实验结果证明该方法提 取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结 和展望。
关键词:微博数据;聚类;主题词检测;
中图分类号:TP392 文献标识码:A 文章编号:
Subject headings detection based on personalweibo
GAO Yong-bing, ZHOU Huan-yu, NIE Zhi-mi
(School of Information Engineering, Inner Mongolia University of Science and Technology,
Baotou 014010, China)
Abstract: The analysis of the traditional keywords detection algorithm on the basis of the long text, on the basis of combined with the feature of weibo data characteristic of the text, put forward a clustering weights ? extraction*1 (clustering weighting extraction CWE) model of keywords detection method. Mainly considers the data weibo repost, reviews, praise, inline hyperlinks (URL), the experimental results prove the model to extract the subject has the very high accuracy. Finally by testing the subject headings of private microblogging, summarize and prospect the development direction and purpose?
Keywords: Weibo data; Clustering; Subject headings detection
1引言
微博是近年来新兴起的,且发展迅速的新闻媒 体。用户可以在任何吋间、任何地点使用电脑或移 动客户端发布状态。其中关注和分寧最新的新闻事 件,是用户使用微博平台的重要日的。
微悶数据⑶具有以下五个特性:
(1) 海量数据。以新浪微博为例,微博平台 平均每天收录来口用户发布的将近2亿条帖子,Ifu 发帖的频率平均高达1000条/s,形成了微障海最数 据的特征。
(2) 短文本性。根据微博平台的规定,每条 帖了的长度不超过140个字符,故对微[専数据的处 理都是针对短文本的。
(3) 文本的多样性。由于用户关注的新鲜事 件有多种表现形式,除了文字还有图片、视频以及 超链接,使其微博文本呈现出多样性。
(4) 即时性。用户通过移动客户端、IM软件 和开放的API等多种途径去随时随地记录白C的所 见所闻,体现了微博数据的即时性。
(5) 庞大的社交网络。用户间通过“关注与 被关注”双向模式形成了庞人的社交网络,同时转 发、评论、互赞等功能的引入增加了信息密集度。
主题词的检测一直是国内外研究的热点,传统 主题检测的数据集都是针对普通的长文本,采用的 方法通常是基于向虽空间模型和TFIDFo 一方面由 于微博数据自身的短文木性和多样性,采用传统的 检测方法无法达到预期的效果;另一方面微博主题 词的检测要结合转发数、评论数、赞数以及内嵌的 超链接等因索,而传统的主题词检测方法是不能将 其以上因素考虑进去的。
所以分析传统主题词检测方法的缺陷以及微 博数据木身的特点,提出一种CWE(clustcring weighting extraction)的主题词检测方法。
本文的主要创新点冇以下三点:
改变了传统的先计算候选关键词的多特征权 重⑵,再根据权重值进行聚类⑴的模式。本文 采取的模式是先聚类,冃的是先锁定用户关注 度高但综合权重低的主题词,即聚类关键词; 其次计算所冇候选关键词的综合权重,提取阀 值范围内的分词,即特征关键词;最后合并两 次提取结果并去除重复数据
原创力文档


文档评论(0)