基于语言网络的微博特征发现和话题关键词提取-计算机技术专业论文.docxVIP

基于语言网络的微博特征发现和话题关键词提取-计算机技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
杭州电 杭州电子科技大学硕士学位论文 I I 摘 要 微博是近年来出现的一种网络新媒体,有着传播迅速,使用方便等优点。随 着互联网技术的蓬勃发展,特别是手机互联网用户的迅速增加,每天生成的微博 内容越来越多,微博内容的研究也变得日趋重要。本文首先基于海量微博内容语 料构建了词同现网络来做微博语体特征发现,然后又针对话题相关微博内容语料 构建了话题关键词提取网络,通过对构建的语言网络进行分析和研究,提出了新 的微博内容研究和话题关键词提取方法,并获得了满意的实验结果。 首先,本文对语言网络和微博内容研究的现状和发展进行了简要的回顾。文 中对语言网络研究的背景知识和相关技术做了分析,接着对微博内容研究的方法 进行了总结,主要有两个研究方向,分别是从语言学角度分析微博语体特点和从 文本挖掘角度获取微博信息。 其次,本文提出了基于语言网络的微博特征发现方法。语言网络分析方法一 般通过对语言形式的定量研究来认识和理解语言网络的共同的拓扑结构和演化 的一般规律。本文提出将语言网络分析运用到微博这种网络语言中,通过分析微 博内容构建的语言网络的复杂网络特性,来从整体上发现微博内容的语言学特 征。 再次,本文在总结了现有的微博关键词提取方法优缺点的基础上,提出了一 种基于话题语言网络的关键词提取方法。首先对话题相关的微博内容构建语言网 络,然后使用复杂网络中小世界特性中的两种中心性参数-介数中心性、接近中 心性和度中心性相结合来作为词语的特征权重,接着计算词语节点特征权重参数 值,最后根据词语节点参数值的大小来选择话题关键词。 最后,使用大规模微博语料和话题相关语料对本文提出的基于语言网络的微 博特征发现和话题关键词提取算法进行了实验,并对测试结果进行了分析。实验 结果表明,本文的算法对研究微博内容和提取微博话题关键词具有一定的可用 性。本文最后对论文所做的工作进行了总结和评述,提炼了微博语言网络和话题 关键词提取值得继续研究的若干问题,为以后的研究指明了方向。 关键词:微博,复杂网络,语言网络,关键词提取,中文信息处理 II II ABSTRACT Microblog is a new kind of Internet media that appeared in recent years. It has the superiority of spreading rapidly and convenient to use. With the rapid development of Internet technology, especially the quickly growing number of mobile Internet users, microblog content is produced more and more everyday. Therefore, research on microblog content is becoming increasingly important. Based on the large-scale microblog content corpus, this thesis firstly construct word co-occurrence language networks to find microblog stylistic features, and then with the topic related microblog content corpus, construct topic keyphrase extraction network. Through the analysis and research of the language networks constructed, a microblog text research method and a topic keyphrase extraction method are proposed. The experimental results show that the proposed methods are feasible. Firstly, we review the present studies on language networks and microblog text. With the analysis of related state-of-the-art technologies of language networks research, two manifolds are concerned for microblog content research: (1) From the

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档