- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话题检测与跟踪评测及研究综述
话题检测与跟踪评测及研究综述
摘 要:话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。
关键词:计算机应用;中文信息处理;综述;话题检测与跟踪;自然语言处理;事件;新闻报道
中国分类号:TP391 文献标识码:A
1 引言
话题检测与跟踪(Topic Detection alld Track-ing,简写为TDT)起源于早期面向事件的检测与跟踪(Event Detection and Tracking,简写为EDT)。TDT面向多语言文本和语音形式的新闻报道,主要从事报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展以及跨语言检测与跟踪等相关任务。与EDT不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。
TDT的任务以及评测体系是由美国国防高级研究计划局(DARPA)、马萨诸塞大学(Universityof Massachusetts)、卡耐基一梅隆大学(CarnegieMellon University)和Dragon Systems公司联合制定和设计完成的。来自这些单位的学者历经一年的时间对TDT进行了前瞻性的研究(1996~1997,Pilotstudy),包括检验当前普遍应用于信息检索(Infor-marion Retrieval,简写为IR)和信息抽取(InformationExtraction,简写为IE)等领域的技术是否能够有效解决TDT问题,以及鉴定和设计统一标准的评测规范。虽然大部分IR和IE技术都可以应用于早期的EDT,但过高的误检率说明该领域仍然具备很大的探索空间,尤其对于拓展后的TDT则暴露了更多现有技术的缺陷。因此探索更适合于TDT任务的创新性研究对自然语言领域的发展具有重要意义。
TDT涉及两类最主要的信息获取问题,即信息的检测与集成、信息的采集与跟踪。这两方面的研究课题分别与目前信息检索(IR)和信息过滤(In-formation Filtering,简写为IF)对应的问题非常相似。在IR系统中,用户通过动态地定义需求(Query),从海量信息中检索满足自己当前兴趣的信息,信息以相关度为尺度进行组织、集成与反馈;而在IF系统中,用户通过定义静态的用户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重于跟踪信息的时空进程并将最新的相关信息反馈给用户。基于这些相似点,许多基于IR和IF的信息获取技术都相应地应用于TDT并获得了良好的效果,尤其近期逐渐发展起来的个性化信息检索技术和自适应信息过滤技术,都与TDT研究具有更深层次的共性。但是,TDT在许多方面与IR和IF存在差异,比如对于TDT的新事件检测任务(New Event Detection,简称为NED),系统欠缺任何话题的先验知识,TDT系统必须在对话题毫不了解的情况下,自主地进行识别与检测,这一点与具备了背景知识或先验需求的IR系统截然不同。同时,话题检测系统通常需要维护固定的存储空间保存曾经发生过的话题线索,从而作为衡量新话题的背景信息。对于话题跟踪而言,话题对应的“Query”是隐含给定的,构成话题的是若干(1~4篇)相关报道样本,这与具备明确需求(Profile)的IF问题也不相同。因此,面向IR和IF的相关方法更多地作为TDT的基础研究,而不能完全解决TDT的相关问题。
本文简要介绍TDT任务与评测的相关知识,重点论述和分析近期国内外在该领域的相关研究及其相互关系,并在篇尾展望TDT领域的未来发展趋势。本文组织结构如下,第二章和第三章分别介绍TDT使用的语料和评价体系;第四章简要介绍话题的含义及其与事件的区别,并概述TDT任务的定义与要求;第五章着重探讨TDT研究的层次关系及体系结构;第六章和第七章分别回顾TDT国内和国外的研究现状;第八章概述TDT领域的研究趋势;第九章结论。
2 TDT语料
LDC为TDT方向的研究提供了五期语料,分别是TDT预研语料、TDT2、TDT3、TDT4和TDT5。TDT语料是选自大量新闻媒体的多语言新
文档评论(0)