基于私人微博的主题词检测毕业论文.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于私人微博的主题词检测 摘 要:在分析传统的长文本的主题词检测算法的基础上,结合微博数据特有的文本特征,提出一种“聚类-权重-提取”(clustering weighting extraction CWE)模式的主题词检测方法。主要综合考虑了微博数据转帖、评论、赞数、内嵌超链接(URL),实验结果证明该方法提取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结和展望。 关键词:微博数据;聚类;主题词检测; 中图分类号:TP392 文献标识码:A 文章编号: Subject headings detection based on personal weibo Abstract: The analysis of the traditional keywords detection algorithm on the basis of the long text, on the basis of combined with the feature of weibo data characteristic of the text, put forward a clustering weights - extraction (clustering weighting extraction CWE) model of keywords detection method. Mainly considers the data weibo repost, reviews, praise, inline hyperlinks (URL), the experimental results prove the model to extract the subject has the very high accuracy. Finally by testing the subject headings of private microblogging, summarize and prospect the development direction and purpose. Keywords: Weibo data; Clustering; Subject headings detection 1 引言 微博是近年来新兴起的,且发展迅速的新闻媒体。用户可以在任何时间、任何地点使用电脑或移动客户端发布状态。其中关注和分享最新的新闻事件,是用户使用微博平台的重要目的。 微博数据[3]具有以下五个特性: (1)海量数据。以新浪微博为例,微博平台平均每天收录来自用户发布的将近2亿条帖子,而发帖的频率平均高达1000条/s,形成了微博海量数据的特征。 (2)短文本性。根据微博平台的规定,每条帖子的长度不超过140个字符,故对微博数据的处理都是针对短文本的。 (3)文本的多样性。由于用户关注的新鲜事件有多种表现形式,除了文字还有图片、视频以及超链接,使其微博文本呈现出多样性。 (4)即时性。用户通过移动客户端、IM软件和开放的API等多种途径去随时随地记录自己的所见所闻,体现了微博数据的即时性。 (5)庞大的社交网络。用户间通过“关注与被关注”双向模式形成了庞大的社交网络,同时转发、评论、互赞等功能的引入增加了信息密集度。 主题词的检测一直是国内外研究的热点,传统主题检测的数据集都是针对普通的长文本,采用的方法通常是基于向量空间模型和TFIDF。一方面由于微博数据自身的短文本性和多样性,采用传统的检测方法无法达到预期的效果;另一方面微博主题词的检测要结合转发数、评论数、赞数以及内嵌的超链接等因素,而传统的主题词检测方法是不能将其以上因素考虑进去的。 所以分析传统主题词检测方法的缺陷以及微博数据本身的特点,提出一种CWE(clustering weighting extraction)的主题词检测方法。 本文的主要创新点有以下三点: 改变了传统的先计算候选关键词的多特征权重[2],再根据权重值进行聚类[1]的模式。本文采取的模式是先聚类,目的是先锁定用户关注度高但综合权重低的主题词,即聚类关键词;其次计算所有候选关键词的综合权重,提取阀值范围内的分词,即特征关键词;最后合并两次提取结果并去除重复数据得到主题词。 结合了微博数据短文本特征,将传统的TF-IDF[4]公式进行改进,在TF的计算上综合考虑了一个词在特定的某个短文本中出现的次数以及整个文本中出现的次数,使得每个关键词的TF-IDF值具备相对稳定性。 传统的词性权重赋值只是单纯地划分为名词、动词等,没有对具体的词性进行具体的分类。由于名词在表达文本信息的贡献度比较大,而不同名词贡献度也不同,所以本文对名词词性的权重进行详细的划分。 2 相关工作 随着微博

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档