Web新闻热点发现系统设计与实现-通信与信息系统专业论文.docxVIP

下载本文档

22
0
约3.43万字
约 48页
2018-09-06 发布于上海
举报
版权申诉

Web新闻热点发现系统设计与实现-通信与信息系统专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web新闻热点发现系统设计与实现-通信与信息系统专业论文

1 1 1 绪论 1.1 课题研究背景 2010 年上半年，我国网民继续保持增长态势，截至 2010 年 6 月，总体网民规模达到 4.2 亿，突破了 4 亿关口，较 2009 年底增加 3600 万人，互联网普及率攀升至 31.8%，较 2009 年底提高 2.9 个百分点[ 1] 。互联网是世界上规模最大的公共数据源，能在极短时间内聚集网民关注的各种热点话题并形成舆论。网络的引入急剧地加速了舆论的演化与扩散，使得舆论的演化与扩散突破了原有时空模式的限制。这些网络舆论对现实社会的影响受到了普遍关注，不论是政府还是个人都有必要及时掌握当前的热点话题[2]，防止不法分子煽动和唆使，诱导不明真相的群众，对整个社会造成极坏影响。基于此，迫切需要一个能够进行热点发现的系统，并能在已有热点基础上进行更为深入的分析处理。 1.2 国内外研究情况热点发现领域最著名的是TDT（topic detection and tracking，话题检测与跟踪）系统[3][ 4]。TDT中话题识别与跟踪的基本思想源于 1996 年[ 5]，来自DARPA（Defense Advanced Research Projects Agency，国防高级研究计划局）、卡内基-梅隆大学， Dragon系统公司以及麻萨诸塞大学的研究者开始定义话题识别与跟踪研究的内容，并开发用于解决问题的初步技术，这些初始研究的目的是要确定来自信息检索领域的基于主题的技术在多大程度上能够用来解决基于事件的信息组织问题，后来，随着互联网的飞速发展，TDT就演变成一种信息处理技术，旨在帮助人们应对日益严重的互联网信息爆炸问题，对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪[6]。 TDT 是一项综合决策，涉及很多复杂理论和技术，其相对于信息检索、数据挖掘和信息抽取等自然语言处理技术具有很多共性，并且面向具备突发性和延续性规律的新闻语料，因此逐渐成为当前信息处理领域的研究热点。与一般的信息检索或者信息过滤不同，TDT所关心的话题不是一个大的领域或者某一类事件，而是一个很具体的事件。根据应用范围的变化，TDT评测会议把它 PAGE PAGE 2 分为五个子任务[7]：报道切分（Story Segmentation）、话题跟踪（Story Tracking）、话题检测（Story Detection）、首次报道检测（New Event Detection）、关联检测（Link Detection）[ 8]。在国内，涉及热点自动发现领域的研究开展得比较晚。随着中国互联网飞速发展，Web 新闻热点发现的需求日益增加，也涌现出了一些该领域相关的系统，比如： Goonie 谷尼公司的网络舆情监控分析系统、北京 TRS 拓尔思公司的网络舆情监控系统、正义网舆情监测系统等。它们功能全面，以互联网信息为处理对象，基本上都使用了自动采集、自动分类、智能过滤、自动聚类、主题检测和统计分析等技术，完成当前热点、特殊情况的及时发现、持续跟踪和单点监控，从而帮助系统使用者快速发现和收集所需的社会网络舆情信息，为决策提供信息依据。综合国内外相关研究情况，对于 Web 新闻这个细分领域的热点发现应用，目前还没有相应成熟的系统。本文就是要设计并实现一个专门针对该领域的热点发现系统。系统对大规模 Web 新闻页面进行高效准确的聚类，话题内容相同或相近的聚类结果簇就代表一个热点。由于 Web 新闻页面不同于一般网页，在新闻传播发展过程中，页面内容之间具有一定的联系。因此，本文的难点在于 Web 新闻自身特点的深入分析，以及在此基础上设计并实现一个合适的聚类算法处理流程。目前，聚类算法有很多，没有所谓最优的算法，针对不同应用，只有最合适的算法。 1.3 课题研究内容本课题来源于教育新闻热点分析系统，教育新闻热点分析系统旨在通过信息的采集和分析，为开展新闻发布、政策解读、意见征集、应急响应等业务活动提供全方位的网络监测、分析与决策支持服务，实现网络新媒体互动的自动化、信息化与智能化[9]。目前，已有相关人员着手开发了热点话题发现系统，它是教育新闻热点分析系统的子系统，通过爬虫获取社会媒体数据，用数据挖掘技术，发现海量新闻间的内在联系，使新闻内聚成话题，实现实时热点话题的探测[9]。为了验证现有系统功能以外的其他拓展功能，同时，也为了测试热点话题发现系统实时热点话题探测的效果，本文设计并实现了 Web 新闻热点发现系统，它是一个原型系统。系统将 Web 新闻分成三类，首先以标题和正文分词长度为基础初步合并重复转载新闻，其次以 Web 新闻正文特征码为基础二次合并热点演化新闻，最后选择了一个基于 SNN 密度的聚类算