网站大量收购独家精品文档,联系QQ:2885784924

话题检测与跟踪技术的发展与研究.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
话题检测与跟踪技术的发展与研究 骆卫华 刘群 程学旗 中国科学院计算技术研究所软件研究室比京 100080 {luoweihua,liuqun,cxq}@ 摘 要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍 了现有的话题检测与跟踪系统主要采用的方法.并对其效果进行了比较。 姜妞词,话RrtO测与跟踪,向量空间模型,语言模型 DevelopmentandAnalysisofTechnologyofTopicDetection andTracking LuoWeihuaLiuQun ChengXueqi SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080 {luoweihua,liuqun,cxq}@ Abstract:Thepaperintroducestheoriginandhistoryofthedevelopmentoftechnologyoftopicdetectionand tracking,andmakesremarksonitsprospectItalsodescribessystemicallythemethodsadoptedbythecurrent systemsoftopicdetectionandtracking,andmakescomparisonamongtheirperformance. Keywords:TopicDetectionandTracking,VectorSpaceModel,LanguageModel 1应用背景 随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏 的栓桔。在目前信息爆炸的情况下,如何快捷准确地获取感兴趣的信息成为人们关注的主要 问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量 太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅 仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。而基于关键词的检索工具返 回的信息冗余度过高,很多不相关的信息仅仅因为含有指定的关键词就被作为结果返回了, 因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与 跟踪(TopicDetectionandTracking,以下简称TDT)技术就是在这种情况下应运而生的,它 可以帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及 与该事件与其它事件之间的关系。 ·56)。 TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融 证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来跟踪某个话题的来龙去脉, 进行历史性质的研究。 2 发展历程 TDT的概念最早产生于19%年,当时美国国防高级研究计划署 (DARPA)根据自己的 需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997 年,研究者开始对这项技术进行初步研究,并做了一些基础工作 (包括建立一个针对TDT 研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,而且能自动判断新事件 的出现以及旧事件的再现。从 1998年开始,在DARPA支持下,美国国家标准技术研究所 (NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。这个系列评测会 议作为DARPA支持的TIDES项目下的两个系列会议之一,越来越受到人们的重视。参加该 评测的机构包括著名的大学、公司和研究所,如IBMWatson研究中心、BBN公司、卡耐基 一梅隆大学、马萨诸塞大学、宾州大学等。国内这方面的研究开展得要晚一些,1999年国立 台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT2000某些子任务的评 测。最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。总的来看, TDT系列评测会议呈现两大趋势:一是努力提高信

文档评论(0)

186****8818 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档