中文微博客热点话题检测和跟踪技术研究.pdfVIP

  • 6
  • 0
  • 约6.22万字
  • 约 54页
  • 2015-10-19 发布于安徽
  • 举报

中文微博客热点话题检测和跟踪技术研究.pdf

j量 塞 銮 遁 太 堂 殛 ± 堂 僮 论 塞 主 室 擅 墨 中文摘要 摘要:微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多 样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及时了解整个微 博客中的热点话题,及时获得感兴趣话题的后续信息,本文针对中文微博客进行 了热点话题检测与跟踪的研究。 本文在分析主流中文微博客的信息特点和传播特点的基础上,结合国内外现 有的用于普通网页的话题检测和跟踪技术,重点研究了适用于中文微博客的网页 采集、信息抽取、热点话题检测以及话题跟踪技术。取得了如下四项成果: (1)提出基于时间判断的广度优先网页采集技术。通过在网页采集流程中添 加时间分析器,判断一个将被采集的页面中的时间是否均早于预设的时间点,从 而决定是否对该页面只进行广度采集。该方法既避免了采集过早的无用信息,提 高了采集效率,又保证了采集的覆盖率。 (2)提出基于空间向量模型的SPHA聚类算法用于话题检测。根据微博客 中用语灵活的特点,本文用空间向量模型表示微博客文本和话题,继而提出了 SPHA聚类算法。该算法把话题检测分为文本模型化、话题初步检测和话题合并 三个环节。在话题初步检测中采用改进的Sin西e.P舔s聚类算法,提高了检测效率, 在话题合并环节采用改进的凝聚式层次聚类算法,提高了话题检测质量。 (3)改进了权重、相似度和热度的计算方法。提出了结合语义相似度表的特 征权重和相似度计算方法。结合语义相似度表进行特征权重和相似度计算,不仅 降低了一个语义多种表达形式带来的计算误差,而且保证了计算效率。另外,提 出了计算博文和评论热度的函数,用于对检测到的话题和跟踪到的文本进行热度 计算和排序,使检测和跟踪的结果以更合理的方式呈现给用户。 (4)提出基于查询向量的自适应话题跟踪算法。针对单纯采用基于查询向量 的话题跟踪算法无法解决话题漂移的问题,本文在追踪过程中不断调整查询向量, 以使其适应话题的发展,同时利用网页关系、核心特征项和非核心特征项降低了 噪声信息的引入量,提高了查询向量调整效果。 关键词:微博客;话题检测;话题跟踪;网页采集;信息抽取 分类号:TP391.1 ABSTRACT isanew t0 sh眦觚ddissem洫ate ABSTRACT.Micr0-blogplatfomquicl(1y i耐10mlation.Itisch甜眦rizcd sca_ttered锄ddiVerseinfo肌ation.IIl byhuge锄。嘣of ordert0ma|【c not ob‰tlle iIlf.0册ationiIl also people dispersed oIlly micr0.blog,but tllehot followt11e tlle are of imerested ke印up州tlltopic锄d messages iIl, topictlley t11is c硎ed outtlle陀searchonCllinese hot detectionand papcr micro-blogtopic 仃筑l(ing. Tllis maillcharacteriSticsoftheinformation觚ddisseIllinationin paper锄alyzes廿le

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档