- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP311.12 U.D.C: 004.628
Dissertation for the Master Degree of Engineering
RESEARCH ON TOPIC DETECTION IN BLOGOSPHERE BASED ON CONTENT ANALYSIS
Candidate:
Jinyan He
Supervisor:
Prof. Zhexue Huang
Associate Supervisor:
Associate Prof. Yunming Ye
Academic Degree Applied for:
Master of Engineering
Specialty:
Computer Science and
Technology
Affiliation:
Shenzhen Graduate School
Date of Defence:
December, 2009
Degree-Conferring-Institution:
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
-
- PAGE IV -
摘 要
话题检测技术是面向文本信息流进行未知话题识别的信息处理技术,它是 话题检测与追踪技术的重要组成部分。这项技术旨在从特定时间和地点发生的 事件扩展为具备更多相关外延的话题,它在信息抽取和舆情监控方面有很大的 实用价值。目前,常见的话题检测算法大多面向具备突发性和延续性规律的新 闻网站语料,而专门针对博客空间的话题检测算法并不成熟,这是因为博客属 于个人媒体,跟新闻语料相比,具有数据量庞大和形式多样化的特点。
本文通过对博客数据的结构深入分析,明晰了对博客数据进行话题检测的 主要技术需求。针对博客数据形式多样化的特点,选取必要特性转化为新的话 题模型——话题质心和关键词序列为主的话题模型,并基于该话题模型设计了 话题检测算法,话题关键词提取算法,专题提取算法。本文的主要贡献体现在 以下几个方面:
(1) 本文设计了符合博客数据特性的话题模型。话题模型由多个特征组 成,其中包括:话题名称、关键词序列、话题质心、博文集合、话题发起时间。 话题模型贯穿于本文的三个核心算法:话题检测算法和话题关键词提取算法在 博文的基础上生成话题模型;专题抽取算法在话题模型的基础上作进一步话题 组织工作。
(2) 文中通过分析各类常用的文本聚类算法,从中选取了增量聚类算法 作为话题检测算法的基础。引入了改进话题检测效果的三项优化策略:话题质 心更新、文本过滤、话题模型选择。通过对比实验证明了话题检测算法的有效 性。
(3) 设计了话题关键词提取算法,为每一个话题提取标志性词汇集合。 此算法主要采用了文本特征选择的互信息原理,并引入了对在博文标题中出现 的词进行加权的优化策略。通过实验证明了关键词提取算法的有效性。
(4) 在话题模型的基础上实现了专题提取算法。该算法以层次聚类思想 为基础,主要选用了话题模型特征中的三项特征:关键词集合、话题质心、话 题发起时间。对各项特征建立不同的相似度计算公式,以计算话题模型之间的 相似度。最后通过实验证明了专题提取算法的有效性。
基于以上研究成果,本文设计博客话题检测系统,该系统由五大模块组成: 数据库模块,数据预处理模块,话题检测模块,话题模型特征提取模块,专题 提取模块。通过编程技术实现了 Blog 话题检测原型系统,为博客话题检测技术
的研究打下了坚实的基础。
关键词:博客;话题检测;话题模型;专题提取
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- III -
-
- PAGE IV -
Abstract
Topic detection technology is an unknown topic identification technology faced to text-oriented information flow, which is an important component of topic detection and tracking technology. This technology seeks a particular time and place events in expanded with more topics related to outreach, which has gre at practical value in the informat
您可能关注的文档
- 基于文本数据挖掘的微博情感分析与监控系统-软件工程专业论文.docx
- 基于手机的会议室管理系统的设计与实现-电子与通信工程专业论文.docx
- 基于摄像机反馈的多投影自动无缝拼接校正-电子与通信工程专业论文.docx
- 基于三全理论的A纺织厂全面质量管理体系优化研究-工商管理专业论文.docx
- 基于数据挖掘技术的食品连锁销售客户分类研究-软件工程专业论文.docx
- 基于试验数据的汽车侧碰仿真优化系统开发-材料工程专业论文.docx
- 基于树木部分生理特性的仿生算法研究-通信与信息系统专业论文.docx
- 基于视频的车流量检测与车辆跟踪方法研究-控制科学与工程;模式识别与智能系统专业论文.docx
- 基于人工蜂群算法和粗糙模糊集相融合的网格任务调度研究-计算机应用技术专业论文.docx
- 基于声望的信任管理关键技术研究-网络与网络资源管理专业论文.docx
- GB 4789.11-2014 好 溶血性链球菌 自学.ppt
- GB 4789.36-2016 大肠埃希氏菌O157:H7NM检验 好.ppt
- ADI高速、混合、微弱信号布线指南.pdf
- GBT 4789-13产气荚膜梭状芽孢杆菌检验.ppt
- GB 4789.12-2016 肉毒梭菌及其毒素检验 好.ppt
- BIM机场T3航站楼案例.ppt
- GB 4789.10-2016好 金黄色葡萄球菌检验 包含定性、计数和毒素测定.ppt
- GBT 4789.15,16 -2016 霉菌和酵母计数和检验.ppt
- 浙江省及下辖各市经济财政实力与债务研究(2025)-新世纪评级.pdf
- 赢创中国:2024年可持续发展实践报告.pdf
原创力文档


文档评论(0)