zhouhunyu小论文 .docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
zhouhunyu小论文

基于个人微博主题词提取研究 高永兵, 周环宇 , 聂知秘,胡文江 (内蒙古科技大学 信息工程学院,内蒙古 包头 014010) 摘 要:微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一,微博数据具有实施动态特性,因此人们可以通过分析微博数据检测现实生活中的事件,同时微博数据的海量、短文本和丰富的社交关系等特性也为事件检测带来了新的挑战。综合考虑了微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL))提出了一种更有效的基于个人微博数据的主题词检测(Personal weibo data subject test ,PWDST)方法。 关键词:微博数据;文本特征;主题词检测; 中图分类号:TP392 文献标识码:ABase on the research of personal micro-blog public events detection GAO Yong-bing, ZHOU Huan-yu, HU Wen-jiang ,NIE Zhi-mi (School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China) Abstract: Microblog as a new social media services, is currently one of the most popular social networking applications, weibo data to implement dynamic characteristics, so people can through the analysis of weibo data detection in real life events, and the mass, weibo series Ben and rich in features such as social relationships and brings new challenges for event detection. Considering the weibo data characteristic of the text characteristics (repost, reviews, and number of praise, embedded hyperlinks (URL)) is proposed based on a more effective Personal weibo data subject detection (Personal weibo data subject test, PWDST) method. Keywords: weibo data; The text characteristic; Subject headings detection; 1.引言 微博作为一个新兴的社交媒体服务,是目前最流行的社交应用之一。它允许用户随时随地使用移动设备发布不超过140字符的信息,以更新自己的状态。对微博应用等方面的研究,是最近几年的研究热点。新浪微博是国内最流行的微博网站,用户注册人数已超过3亿。 微博数据包括以下五个特性: 数据海量以新浪微博为例,目前微博用户平均每天都要发送超过1亿条帖子,平均每秒发送的帖子数高达1000条/s,这使得微博数据量非常巨大。 短文本性根据微博网站规定,每条微博帖子的长度不能超过140个字符,因此微博帖子较短小精干。 文本缺失性受发帖字数限制,用户只能用精简的语言发表微博,文本规范性和完整性较差。为了更好地阐述自己的观点,用户在发帖时嵌入超文本,如图片、视频和网页链接等。 实时性移动客户端的迅猛增长,使得人们在日常生活中可以随时随地发帖,从而微博数据具有实时性。 丰富的社交信息微博用户间通过“关注”关系形成了一个庞大而复杂的社交网络,并且通过转发、评论等操作引入更丰富的社交关系,这使得微博数据具有丰富的社交信息。 针对微博数据的特性和传统事件检测方法的缺陷,本文提出了一种更有效的基于个人微博数据的主题词检测(weibo data subject test ,WDST)方法。该研究方法综合考虑微博数据特有的文本特征(转帖、评论、赞数、内嵌超链接(URL)等)、实时性特征进行主题词的监测。本文的主要创新点有以下两点: 分析微博数据的文本特征时,综合考虑转发、评论、赞数、内嵌外部链接(URL)等并提出了相应的加权方案,计算出微博信息中每个关键词的热点权重。 2.相关工作 随着微博应用的推广和移动客户端的迅猛增长,人们往往第一时间在微博上发帖“报道”生活

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档