话题检测与跟踪技术的发展与研究 .doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
话题检测与跟踪技术的发展与研究

话题检测与跟踪技术的发展与研究 骆卫华 刘群 {luoweihua, liuqun}@ 中国科学院计算技术研究所 摘要:本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较。 关键词:话题检测与跟踪,向量空间模型,语言模型 Development and Analysis of Technology of Topic Detection and Tracking Luo Weihua, Liu Qun {luoweihua, liuqun}@ Institute of Computing Technology, Chinese Academy of Sciences Abstract: The paper introduces the origin and history of the development of technology of topic detection and tracking, and makes remarks on its prospect. It also describes systemically the methods adopted by the current systems of topic detection and tracking, and makes comparison among their performance. Keywords: Topic Detection and Tracking, Vector Space Model, Language Model 1 应用背景 随着信息传播手段的进步,尤其是互联网这一新媒体的出现,我们已经摆脱了信息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确的获取感兴趣的信息才是人们关注的主要问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。话题检测与跟踪(Topic Detection and Tracking,以下简称TDT)技术就是在这种情况下应运而生的。通过话题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及与该事件与其它事件之间的关系。目前此方面的研究已经引起了人们的普遍兴趣。 TDT技术可以用来监控各种语言信息源,在新话题出现时发出警告,在信息安全、金融证券、行业调研等领域都有广阔的应用前景。此外,它还可以用来跟踪某个话题的来龙去脉,进行历史性质的研究。 2发展历程 话题检测与跟踪是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。 TDT的概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数据流的主题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,而且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。2002秋季召开了TDT的第五次会议(即TDT 2002)。这个系列评测会议作为DARPA支持的TIDES(Translingual Information Detection, Extraction and Summarization,跨语言信息检测、抽取和总结)项目下的两个系列会议(另一个是文本检索会议TREC)之一,越来越受到人们的重视。参加该评测的机构包括著名的大学、公司和研究所,如IBM Watson研究中心、BBN公司、卡耐基-梅隆大学、马萨诸塞大学、宾州大学、马里兰大学、龙系统公司等。国内这方面的研究开展得要晚一些,1999年国立台湾大学参加了TDT话题检测任务的评测,香港中文大学参加了TDT 2000的某些子任务的评测。最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。 TDT会议

文档评论(0)

didala + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档