基于文本聚类的微博舆情热点检测技术研究-软件工程专业论文.docxVIP

  • 2
  • 0
  • 约5.69万字
  • 约 68页
  • 2019-03-30 发布于上海
  • 举报

基于文本聚类的微博舆情热点检测技术研究-软件工程专业论文.docx

万方数据 万方数据 分类号: 密级: U D C : 编号: 专业硕士学位论文 (工程硕士) 基于文本聚类的微博舆情热点检测技术研究 硕士研究生 :刘少林 指 导 教 师 :孙建国 副教授 学 位 级 别 :工程硕士 工 程 领 域 :软件工程 所 在 单 位 :计算机科学与技术学院 论文提交日期 :2015 年 05 月 论文答辩日期 :2015 年 06 月 学位授予单位 :哈尔滨工程大学 Classified Index: U.D.C: A Dissertation for the Professional Degree of Master (Master of Engineering) Research on Hotspot Detection Technology of Microblogging Public Opinion Based on Text Clustering Candidate: Liu Shaolin Supervisor: Associate Prof. Sun Jianguo Academic Degree Applied for: Master of Engineering Specialty: Software Engineering Date of Submission: May, 2015 Date of Oral Examination: Jun, 2015 University: Harbin Engineering University 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。 有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注 明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者(签字): 日期: 年 月 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作 的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送 交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进 行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的 全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一 署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文(□在授予学位后即可 □在授予学位 12 个月后 □解密后)由哈尔滨工 程大学送交有关部门进行保存、汇编等。 作者(签字): 导师(签字): 日期: 年 月 日 年 月 日 基于文本聚类的微博舆情热点检测技术研究 基于文本聚类的微博舆情热点检测技术研究 摘 要 微博作为一种新兴的网络交流媒体,自诞生以来就受到了广大网络用户的追捧, 成为广大网民表达自身意愿的重要平台之一。微博平台具有灵活便捷的特性,这些特 性为网民参与交流带来很大的便捷,同时也对互联网舆情监测带来很大的挑战。微博 用户每天都会在微博平台上发布大量的信息,这些信息不仅包含微博用户对自身情感 的表达,还包含人们对各种社会问题的观点看法,微博已经成为我国网民表达舆论的 重要场所之一。目前国内外的舆情监测系统主要是针对 BBS 论坛、新闻站点等网络媒 体,在微博舆情检测方面还需要进一步的完善。本文针对微博的舆情监测问题对目前 的研究现状展开研究,提出了一种用于检测微博平台中存在的热点话题的方法。 本文中提出的微博热点话题检测方法主要在微博数据特征词汇提取、特征词汇权 值计算和文本聚类方法三个方面进行了改进。首先基于微博信息表达特有的格式,在 对微博数据进行特征词汇选择时,优先选择包含信息量较大或者处于重要位置的词汇 作为该微博信息的特征词汇,从而降低向量空间的维数,加快系统的运算效率。其次 针对特征词汇包含信息量规模大小的问题,在计算特征词汇的权值时,对处于重要位 置的词汇进行了一定的加权,另外还对转发量和评论量高的微博信息中包含的特征词 汇进行了一定的加权。最后在对微博信息进行聚类分析时,提出了一种基于密度的 K-means 聚类算法,该算法依据数据对象在向量空间中的分布规律进行聚类中心的计 算,避免了聚类中包含的噪音数据和孤立点数据带来的影响,提高了聚类结果的准确 率和稳定性。 最后通过实验对基于密度的 K-means 聚类算法的有效性进行了验证,并通过与 K-means 聚类算法的性能进行对比,证明了本文中提出的基于密度的 K-means 聚类算 法在各个性能指标上均有一定幅度上的提升

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档