话题识别和跟踪技术发展研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话题识别和跟踪技术发展研究

话题识别和跟踪技术发展研究   [摘 要] 话题识别与跟踪以大规模新闻流为研究对象,通过监控新闻报道描述的话题,发现新的用户感兴趣的信息并将涉及某个话题的新闻报道组织起来以某种方式呈现给用户。本文首先介绍话题识别与跟踪的主要任务、相关概念和评价方法,然后对话题识别国内外研究现状进行详细论述,最后对话题识别的发展趋势和未来的研究方向进行分析。   [关键词] 话题; 话题识别; 话题跟踪   doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 09 . 014   [中图分类号]TP391 [文献标识码]A [文章编号]1673 - 0194(2011)09- 0056 - 04      1引言      互联网的飞速发展和广泛应用,使得信息采集、传播的速度和规模达到很高的水平。这虽然实现了信息的全球共享与交互,但也造成了网络信息的急剧膨胀和杂乱无序,使人们难以迅速而准确地获取自己最需要的信息。   话题识别与跟踪(Topic Detection and Tracking,TDT) 技术就是在这种情况下产生的。它可以将关于话题的分散多变的信息汇集并组织起来,以帮助用户发现话题中各种因素之间的关系,从整体上了解话题的各方面信息以及话题与话题之间的联系[1]。随着TDT技术的不断进步,其研究目标和处理对象已不再局限于媒体信息流,而是越来越广泛地应用于与信息相关的各个领域。   本文简要介绍TDT的任务和相关概念,重点论述国内外在该领域的研究现状,并展望TDT领域的发展趋势。文章具体结构为:第二节介绍TDT的相关概念、任务及测评方式;第三节详细论述话题识别技术的研究、应用现状以及发展趋势;第四节进行总结论述。      2TDT简介      2.1基本概念   TDT的处理对象是随时间动态变化的语言信息流,而不是静态的、封闭的文本集合。为了区别于语言学上的概念,TDT评测会议对“话题”及常用概念进行了定义[1-2]:   (1) 话题(Topic):一个种子事件或活动,以及所有与之直接相关的事件或活动。   (2) 事件(Event):由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个特例。   (3) 报道(Story):与话题紧密相关、包含两个或多个独立陈述某个事件的子句的新闻片断。   2.2TDT任务   TDT 研究设立了以下5项基础性任务[1-2]:报道切分任务(Story Segmentation Task,SST)、话题跟踪(Topic Tracking,TT)、话题识别(Topic Detection,TD)、新事件的识别(New Event Detection,NED)、报道关系识别(Story Link Detection,SLD)。其中,话题跟踪(TT)是指监控新闻信息流以发现与某一已知话题有关的新报道,通常要事先给出一个或几个已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信息过滤,在数据挖掘领域则类似于对新闻数据流的分类研究。话题识别(TD)是指识别出系统未知的话题及其相关报道,将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话题簇。从本质上看,这项研究等同于对新闻报道流数据的聚类研究。   2.3测评技术   在TDT领域, 对系统性能的评价主要使用归一化识别代价(Cdet)norm这一指标, 它由系统的识别漏报率和误报率计算得到, 计算公式如下:   其中,Cmiss和Cfa分别是漏报和误报的开销;Pmiss和Pnon - target分别是漏报和误报的条件概率;Cdet是错误识别代价,由以下公式得到:   Cdet = CmissPmissPtarget + CfaPfaPnon - target (2)   其中,Ptarget是目标话题的先验概率,Ptarget = 1 - Pnon - target,Cmiss、Cfa和Ptarget都是预设值, 作为调节漏报率和误报率在评测结果中所占比重的系数。除此之外, 还可以根据系统对每个判断给出的可能性大小绘制识别错误权衡曲线,来直观地刻画漏报率与误报率之间的一种反比关系[3]。      3话题识别(TD)的研究及应用现状      TDT研究的最终目标是在多种形式多种语言的新闻报道流中准确地自动检测新话题并对已知话题进行跟踪。话题识别任务是对这一终极目标的最佳体现,因此在TDT研究中处于比较重要的位置,引起了国内外研究者们的广泛关注。   3.1基于聚类的TD算法   目前TD研究主要是对文本聚类算法的改进和延伸。一般可将TD分为回溯检测和在线检测两类,回溯检测的目的是从已有的新闻

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档