一种分层机制网络新闻话题融合方法.docVIP

下载本文档

9
0
约4.96千字
约 10页
2018-08-13 发布于福建
举报
版权申诉

一种分层机制网络新闻话题融合方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种分层机制网络新闻话题融合方法

一种分层机制的网络新闻话题融合方法　　摘要：传统的新闻话题融合方法往往将话题表示为一个统一的一层模型进行聚类融合，对于具有多层结构的网络新闻存在模型缺陷，容易忽略子话题的细节特征，影响新闻话题的融合结果。针对该问题，本文提出一种基于分层机制的网络新闻话题融合方法，研究话题的多层表示模型，实现对网络新闻话题的自动聚类。实验表明，本文方法较传统方法具有更高的准确率，能有效识别网络新闻在子话题上的特征差异。　　关键词：多层表示模型；分层机制；新闻话题；话题融合；话题聚类　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2015）15-0212-03 　　Abstract： Traditional methods for news topic fusion are used to represent the news topic with a uniform one-level model to carry out clustering. With regard to the network news with multi-level topics， the model defects of traditional methods easily result in overlooking the detailed features of the sub-topic and affecting the fusion results. Aiming at this issue， this paper proposes a hierarchical topic fusion method， and discusses the multi-level topic model as well as the implementation of topic clustering for network news. Experiments show that this method has a higher precision than traditional methods and can effectively identifies the differences in the characteristics of the sub topics of network news. 　　Key words： multi-level representation model； hierarchical method； news topic； topic fusion； topic cluster 　　1 引言　　随着网络技术的不断发展，互联网已经成为一种新的新闻媒体传播媒介。相比其它新闻类别，网络新闻具有更新速度快，信息量大，交互性强等优点。因此以新闻网页为对象的数据挖掘技术成为近年来工业界和学术界共同的研究热点。网络上的新闻大多分布比较杂乱，寻找准确的新闻内容显得十分困难。因此，一种高效、准确的新闻话题自动聚类融合方法是很必要的。然而，传统的方法只是将话题表示为一个统一的单层模型，利用特征融合等方法进行聚类。传统方法比较简单便捷，只是对新闻整体进行了简单地聚类融合，没有考虑话题的层级结构，容易忽略子话题的细节特征，影响话题融合的准确性，造成话题融合结果的偏斜。因此，需要一种新的新闻话题聚类融合方法，对新闻正文实现基于分层机制的融合，提高新闻聚类的准确度。　　目前对新闻话题的分层机制研究主要采用两种策略：基于关键词的方法和基于时间信息的方法。张阔等[1]采用基于关键词的策略，提出以词元单位为基础的话题内事件检测方法，以事件的形式体现子话题。仲兆满等[2]则考虑了文本中的时间信息特征，通过获取新闻报道的发布时间对新闻进行排序，进而对相同时间段内的新闻进行话题聚类，实现话题分层。文献[3]对搜索引擎返回的话题相关文档进行子话题划分，结合了两种子话题聚类方法。基于关键词的划分方法中，首先计算关键词的权重，然后根据关键词进行分类，但是并没有分析子话题的内容特征。在基于时间信息的划分方法中，简单地将同一时间点的子话题片段进行合并，并没有考虑同一时间点可能出现多个子话题的情况。基于话题层级的话题聚类对于话题演化研究具有重要意义，其中，Makkonen[4]提出在话题演化挖掘过程中通过分析名词实体来测量话题之间的相似度，文献[5][6]则讨论了对于不同话题层级结构的新闻文档进行话题演化追踪的相关工作。而洪宇等[7]将新闻报道划分为不同的层级结构，根据相关子话题的比例和分布建立新话题的检测模型，实现对新事件的识别。与已有工作相比，本文的主要贡献在于：　　（1）提出了面向不同新闻结构类型的网络新闻话题层级关系构建方