话题识别和跟踪技术发展研究.docVIP

下载本文档

6
0
约8.63千字
约 19页
2018-10-10 发布于福建
举报
版权申诉

话题识别和跟踪技术发展研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

话题识别和跟踪技术发展研究

话题识别和跟踪技术发展研究　　［摘要］话题识别与跟踪以大规模新闻流为研究对象，通过监控新闻报道描述的话题，发现新的用户感兴趣的信息并将涉及某个话题的新闻报道组织起来以某种方式呈现给用户。本文首先介绍话题识别与跟踪的主要任务、相关概念和评价方法，然后对话题识别国内外研究现状进行详细论述，最后对话题识别的发展趋势和未来的研究方向进行分析。　　［关键词］话题；话题识别；话题跟踪　　doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 09 . 014 　　［中图分类号］TP391 ［文献标识码］A ［文章编号］1673 - 0194（2011）09- 0056 - 04 　　　　１引言　　　　互联网的飞速发展和广泛应用，使得信息采集、传播的速度和规模达到很高的水平。这虽然实现了信息的全球共享与交互，但也造成了网络信息的急剧膨胀和杂乱无序，使人们难以迅速而准确地获取自己最需要的信息。　　话题识别与跟踪（ＴｏｐｉｃＤｅｔｅｃｔｉｏｎａｎｄＴｒａｃｋｉｎｇ，ＴＤＴ）技术就是在这种情况下产生的。它可以将关于话题的分散多变的信息汇集并组织起来，以帮助用户发现话题中各种因素之间的关系，从整体上了解话题的各方面信息以及话题与话题之间的联系［１］。随着ＴＤＴ技术的不断进步，其研究目标和处理对象已不再局限于媒体信息流，而是越来越广泛地应用于与信息相关的各个领域。　　本文简要介绍ＴＤＴ的任务和相关概念，重点论述国内外在该领域的研究现状，并展望ＴＤＴ领域的发展趋势。文章具体结构为：第二节介绍ＴＤＴ的相关概念、任务及测评方式；第三节详细论述话题识别技术的研究、应用现状以及发展趋势；第四节进行总结论述。　　　　２ＴＤＴ简介　　　　２．１基本概念　　ＴＤＴ的处理对象是随时间动态变化的语言信息流，而不是静态的、封闭的文本集合。为了区别于语言学上的概念，ＴＤＴ评测会议对“话题”及常用概念进行了定义［１－２］：　　（１）话题（Tｏｐｉｃ）：一个种子事件或活动，以及所有与之直接相关的事件或活动。　　（２）事件（Eｖｅｎｔ）：由某些原因、条件引起，发生在特定时间、地点，并可能伴随某些必然结果的一个特例。　　（３）报道（Sｔｏｒｙ）：与话题紧密相关、包含两个或多个独立陈述某个事件的子句的新闻片断。　　２．２ＴＤＴ任务　　ＴＤＴ研究设立了以下5项基础性任务［１－２］：报道切分任务（ＳｔｏｒｙＳｅｇｍｅｎｔａｔｉｏｎＴａｓｋ，ＳＳＴ）、话题跟踪（ＴｏｐｉｃＴｒａｃｋｉｎｇ，ＴＴ）、话题识别（ＴｏｐｉｃＤｅｔｅｃｔｉｏｎ，ＴＤ）、新事件的识别（ＮｅｗＥｖｅｎｔＤｅｔｅｃｔｉｏｎ，ＮＥＤ）、报道关系识别（ＳｔｏｒｙＬｉｎｋＤｅｔｅｃｔｉｏｎ，ＳＬＤ）。其中，话题跟踪（ＴＴ）是指监控新闻信息流以发现与某一已知话题有关的新报道，通常要事先给出一个或几个已知的、关于该话题的新闻报道。这项研究类似于信息检索领域基于例子的查询以及信息过滤，在数据挖掘领域则类似于对新闻数据流的分类研究。话题识别（ＴＤ）是指识别出系统未知的话题及其相关报道，将输入的新闻报道归入不同的话题簇，并在需要的时候建立新的话题簇。从本质上看，这项研究等同于对新闻报道流数据的聚类研究。　　２．３测评技术　　在ＴＤＴ领域，对系统性能的评价主要使用归一化识别代价（Ｃｄｅｔ）ｎｏｒｍ这一指标，它由系统的识别漏报率和误报率计算得到，计算公式如下：　　其中，Ｃｍｉｓｓ和Ｃｆａ分别是漏报和误报的开销；Ｐｍｉｓｓ和Ｐｎｏｎ－ｔａｒｇｅｔ分别是漏报和误报的条件概率；Ｃｄｅｔ是错误识别代价，由以下公式得到：　　Ｃｄｅｔ＝ＣｍｉｓｓＰｍｉｓｓＰｔａｒｇｅｔ＋ＣｆａＰｆａＰｎｏｎ－ｔａｒｇｅｔ（２）　　其中，Ｐｔａｒｇｅｔ是目标话题的先验概率，Ｐｔａｒｇｅｔ＝１－Ｐｎｏｎ－ｔａｒｇｅｔ，Ｃｍｉｓｓ、Ｃｆａ和Ｐｔａｒｇｅｔ都是预设值，作为调节漏报率和误报率在评测结果中所占比重的系数。除此之外，还可以根据系统对每个判断给出的可能性大小绘制识别错误权衡曲线，来直观地刻画漏报率与误报率之间的一种反比关系［３］。　　　　３话题识别（ＴＤ）的研究及应用现状　　　　ＴＤＴ研究的最终目标是在多种形式多种语言的新闻报道流中准确地自动检测新话题并对已知话题进行跟踪。话题识别任务是对这一终极目标的最佳体现，因此在ＴＤＴ研究中处于比较重要的位置，引起了国内外研究者们的广泛关注。　　３．１基于聚类的ＴＤ算法　　目前ＴＤ研究主要是对文本聚类算法的改进和延伸。一般可将ＴＤ分为回溯检测和在线检测两类，回溯检测的目的是从已有的新闻