剖析TDT技术研究2.docVIP

下载本文档

11
0
约 18页
2017-08-05 发布于湖北
举报
版权申诉

剖析TDT技术研究2.doc

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

剖析TDT技术研究2

1第一章绪论 1.1研究背景和意义随着网络新媒体时代的到来。人们了解社会生活中发生的新闻事件的途径越来越多。通过互联网的传播，信息的传播已经完全打破了新闻传播的地域性和时效性限制。新闻的快递速度得到了飞速的发展。人们在享受更快速便捷的同时慢慢发觉新闻信息的繁杂让人迷失在信息的海洋里。当人们开始想要关注一个新闻事件时。一般想要了解事件的起因，事件的发展过程，事件的影响和未来发展趋势等方面的内容。通常来说利用搜索引擎返回的新闻是根据与查询的相关性排名展示的。不仅存在很大的冗余性，而且并不能展示新闻事件的前因后果，无法满足用户跟踪一个特定事件的需求。目前一些搜索引擎和新闻网站已经开始在这方面做一些研究。从海量的网络资源中找到相关的新闻报道，保证报道信息的权威性和准确性，并且按照事件发展阶段来简单直观的呈现给用户。这是一个目前社会和学术界共同关注的话题。要找到特定事件的相关的报道，涉及到多个领域的研究，包括数据挖掘技术，话题的检测技术，文本聚类技术，还有最后展示给读者简明的新闻内容需要用到的多文本摘要技术，也是目前学术界的重要的研究课题和发展方向。对于一个系列热点新闻事件来说，一般是按照时间顺序发展的。媒体对于一个事件的报道一般要经历四个基本阶段，即事件预热阶段，事件升级阶段，事件持续阶段，事件收尾阶段。如“2014北京APEC峰会”这个系列新闻的报道中，其文容大概包议前期准备，会议中发生的事件，会议带来的各方面影响和会议结束的情况这几个方面的内容，随时间推进的逻辑展示非常明显。如何从对事件数以万计的报道中找出具有代表性的报道，从这些海量的报道中找到它们随时间推进的逻辑关系，生成易于理解的新闻摘要将整个系列新闻展示给读者，正是本文要研究的问题。本文的研究课题正是为了让用户从杂乱的数据信息中解脱出来，快速地了解一个新闻事件的起因，经过，结果和后续影响等各方面的信息。以分阶段的方式将优质的新闻内容展示给用户。 1.2国内外研究现状对于一个特定的新闻进行分析是话测与跟踪（Topic Detection and Tracking,TDT）技域研究的问题。话题检测与跟踪技术[1]是信息处理领域的范畴，1996年美国国家国防研究计划署(DARPA)开展了这个项目[2]，最早用于在大量的新闻数据流中判断报道的主题。话题检测与跟踪技术主要是根据数据流中的主题信息，检测出新的话题，或者跟踪已知的话题信息。新闻热点话题检测本质上是一种无监类，把一定时间区间内的报道文本按题相似度进行聚类。提取出能代件主题的文本特征，因为新闻报道存在新闻逻辑关系，具有代表性的特征会在某个时间节点出现频率大幅增高的情况，我们把这些特征称为突发特征。TDT技术的处理过程一成三个阶段进行，第一个阶段分割数据流，包括检索处理，分词和构建特征向量等。第二阶段是找到第一次出现的话题。第三阶段是将发现的话题与已有的样本进行比照，判断是否属于新的话题，并根据主题进行分类。近年来，TDT技术已经取得了很多显著的成果，James Allan[3]等人提出把自然语言处理技术加入到话题检测和跟踪系统中，单采用数据统计的方式，对于同一事件不同侧面的报道很难被认为是同一事件。不同的话题的区分也很困难。一篇新闻报道常常包含事件发生的时间、地点、参与人员和其他一些信息，这些信息之间的关系可以有效的用来区分不同的报道，因此引入命名实体来进行自然语言处理对于话题检测的性能提高很大。Joe Carthy[4]等人提出引入特点的“词汇链”，通过“词汇连“匹配来寻找数据流中的子主题，并且设计了话题追踪系统。 He等人[5]通过分析事件特征在时间线上的变化来发现特征隐含的特征来分析对于事件聚类的影响。2009年12月，Google发项面对新闻领域的服务闻服务Living Stories[60]，该服务把特定媒体发表的关于同一主题撰写的文章以专题的形式来呈现。每个Living Story可视为一个新闻专题，拥有专属的网址，让用户可以追踪后续报道，并检视相关报道的背景、涵盖分析、影片和重要人士的评论等等。 1.2.1 TDT技术研究任务 TDT综合了多种处理技术，在进行TDT任务处理时需要用到自然语言处理理论和相关技术[6]，因此TDT研究领域进行了一系列的测评，分析不同的应用场景和应用需求，TDT评议对于话题检踪技术进行定义，认为其包含面的子任务[7]。报道切分（Story Segmentation）任务：对报道进行分析，找到所有的报道的区域边界，把待处理的数据流切分成为独立的各个报道，并且使这些报道结构化以便于进一步的处理。话踪（Story Tracking）任务：对给定的某一特定话题进行跟踪[8]，与之前已有的话题进行对比，发现他们之间的联系。一般它会先通过一组样本报道，提取其中的特征来训练得