基于内容分析的Blog话题检测方法研究-计算机科学与技术专业论文.docxVIP

基于内容分析的Blog话题检测方法研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP311.12 U.D.C: 004.628 Dissertation for the Master Degree of Engineering RESEARCH ON TOPIC DETECTION IN BLOGOSPHERE BASED ON CONTENT ANALYSIS Candidate: Jinyan He Supervisor: Prof. Zhexue Huang Associate Supervisor: Associate Prof. Yunming Ye Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technology Affiliation: Shenzhen Graduate School Date of Defence: December, 2009 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 - - I - - - PAGE IV - 摘 要 话题检测技术是面向文本信息流进行未知话题识别的信息处理技术,它是 话题检测与追踪技术的重要组成部分。这项技术旨在从特定时间和地点发生的 事件扩展为具备更多相关外延的话题,它在信息抽取和舆情监控方面有很大的 实用价值。目前,常见的话题检测算法大多面向具备突发性和延续性规律的新 闻网站语料,而专门针对博客空间的话题检测算法并不成熟,这是因为博客属 于个人媒体,跟新闻语料相比,具有数据量庞大和形式多样化的特点。 本文通过对博客数据的结构深入分析,明晰了对博客数据进行话题检测的 主要技术需求。针对博客数据形式多样化的特点,选取必要特性转化为新的话 题模型——话题质心和关键词序列为主的话题模型,并基于该话题模型设计了 话题检测算法,话题关键词提取算法,专题提取算法。本文的主要贡献体现在 以下几个方面: (1) 本文设计了符合博客数据特性的话题模型。话题模型由多个特征组 成,其中包括:话题名称、关键词序列、话题质心、博文集合、话题发起时间。 话题模型贯穿于本文的三个核心算法:话题检测算法和话题关键词提取算法在 博文的基础上生成话题模型;专题抽取算法在话题模型的基础上作进一步话题 组织工作。 (2) 文中通过分析各类常用的文本聚类算法,从中选取了增量聚类算法 作为话题检测算法的基础。引入了改进话题检测效果的三项优化策略:话题质 心更新、文本过滤、话题模型选择。通过对比实验证明了话题检测算法的有效 性。 (3) 设计了话题关键词提取算法,为每一个话题提取标志性词汇集合。 此算法主要采用了文本特征选择的互信息原理,并引入了对在博文标题中出现 的词进行加权的优化策略。通过实验证明了关键词提取算法的有效性。 (4) 在话题模型的基础上实现了专题提取算法。该算法以层次聚类思想 为基础,主要选用了话题模型特征中的三项特征:关键词集合、话题质心、话 题发起时间。对各项特征建立不同的相似度计算公式,以计算话题模型之间的 相似度。最后通过实验证明了专题提取算法的有效性。 基于以上研究成果,本文设计博客话题检测系统,该系统由五大模块组成: 数据库模块,数据预处理模块,话题检测模块,话题模型特征提取模块,专题 提取模块。通过编程技术实现了 Blog 话题检测原型系统,为博客话题检测技术 的研究打下了坚实的基础。 关键词:博客;话题检测;话题模型;专题提取 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 - - III - - - PAGE IV - Abstract Topic detection technology is an unknown topic identification technology faced to text-oriented information flow, which is an important component of topic detection and tracking technology. This technology seeks a particular time and place events in expanded with more topics related to outreach, which has gre at practical value in the informat

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档