私人微博主题词检测的算法研究.docVIP

下载本文档

3
0
约1.03万字
约 8页
2019-05-13 发布于广东
举报
版权申诉

私人微博主题词检测的算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

私人微博主题词检测的算法研究咼永兵，周环宇’聂知秘（内蒙古科技大学信息工程学院，内蒙古包头014010）：在分析传统长文本的主题词检测算法的基础上”结合微博数据特有的文本特征, 提岀一种聚类■权重■提取（clustering weighting extraction CWE）模式的主题词检测方法，并对其词频、词性以及传统的TF-IDF进行改进。主要综合考虑了微博数据转帖、评论、赞数、内嵌超链接（URL ）,实验结果证明该方法提取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结和展望。关键词：微博数据；聚类；主题词检测；中图分类号：TP392 文献标识码：A 文章编号: Private microblogging keywords detectionalgorithm research GAO Yong-bingz ZHOU Huan-yuz NIE Zhi-mi (School of Informati on Engin eering, I nner Mongolia University of Science and Tech nolog%Baotou 014010, China) Abstract: On the analysis of traditional long text keywords, on the basis of detection algorithm, combined with the feature of weibo data characteristic of the text, put fonvard a ^clustering weights - extraction1* (clustering weighting extraction CWE) model keywords detection method, and the word frequency, part of speech, and improve the traditional TF - IDF. Mainly considers the data weibo repost, reviews, praise, inline hyperlinks (URL), the experimental results proved that the method to extract the subject has the veiy high accuracy. Finally by testing the subject headings of private microblogging, summarize and prospect the development direction and purpose? Keywords: Weibo data; Clustering; Subject headings detection 1引言微博是近年来新兴起的，且发展迅速的新闻媒体。用户可以在任何时间、任何地点使用电脑或移动客户端发布状态。其屮关注和分享最新的新闻事件，是用户使用微博平台的重要目的。微博数据⑶具有以下五个特性：（1）海量数据。以新浪微博为例，微博平台平均每天收录将近2亿条帖了，同时用户发帖的频率平均高达1000条/s,这就形成了微博海量数据的特征。（2）短文木性。根据微博平台的规定，每条帖了的长度不超过140个字符，所以对微博数据的处理要考虑其短文本的特性。（3）文本的多样性。由于用户关注的新鲜事件有多种表现形式，除了文字描述还有图片、视频以及超链接，使其微博文本呈现出多样性。（4）即吋性。用户可以通过移动客户端、IM 软件和开放的API接口等多种途径去随时随地记录自己的所见所闻，体现了微博数据的即时性。（5）庞大的社交网络。用户间通过“关注与被关注”双向模式形成了庞大的社交网络，同时转发、评论、互赞等功能的引入进一步增加了信息稠密性。主题词的检测一?直是国内外研究的热点，传统主题检测的数据集都是普通的长文本，采用的方法通常是基于向量空间模型和TFIDFo 一方面由于微博数据自身的短文木性和多样性，所以采用传统的检测方法无法达到预期的效果；另一方面微博主题词的检测要结合转发数、评论数、赞数以及内嵌的超链接等因索，而传统的主题词检测方法是不能将其以上因素考虑进去的。在分析传统主题词检测方法的缺陷基础上以及结合微博数据本身的特点，本文提出了一种 CWE（clustcring weighting extraction）的主题词检测方法。本文的主要创新点冇以下三点： 1）改变了传统的先计算关键词的多特征权重