在eventsearch系统中,我们构建了人工标注的评测集合,用.docVIP

在eventsearch系统中,我们构建了人工标注的评测集合,用.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在eventsearch系统中,我们构建了人工标注的评测集合,用

在event search系统中,我们构建了人工标注的评测集合,用以系统地定量评估事件挖掘和搜索的效果。以下报告从评测任务目标、评测集的构建过程、评测集的使用、评测指标的选定这几个方面来说明评测集合的选定标准和评估系统的工作过程。 评测任务目标: 天网事件搜索系统的事件挖掘采用聚类的方法,把相近的文档聚在一起,作为一个事件,经过索引后提供给用户搜索和查询。聚类可以用多种方法完成,每种方法都或多或少有不同的参数需要调整。所以我们需要一个客观公正的评测集合来评估这些聚类方法和选择合适的参数。此外,天网事件搜索系统整合了网页、人民日报、CCTV新闻、微博等多方面的数据来源,每一种数据来源都需要针对该源的评测集合,用以评估其事件挖掘的效果。 评测集的构建过程: 首先针对数据源(2001年~2011年的新闻网页、1992年~2011年的人民日报、2002年到2011年的CCTV新闻),我们根据百度百科中的纪年事件总结挑选出2000年到2011年间发生的事件(92年到00年间的事件未选择,考虑只有人民日报有这段数据)。 然后针对这些事件来构建合适的查询query。如2006年5月,黑山独立举行公投;这个事件我们会构建query为 黑山 独立 公投。 这个query尝试描述了给定时间段内发生的事件。生成的query会交给评测集系统构建相关文档集合。 评测集系统拿到query后,会把该时间段内含有query中相关词语的文档都搜索出来,供人工评估这些文档是否跟该事件相关。比如黑山独立公投这个query可能会把一个描述黑山运动员打球的文档搜出来,显然这个文档和该事件不相关。所以评测集系统提供一个方便的web界面,将涉及文档都搜出来,提供给评估人员查看,然后评估人员从中标注找到相关文档,构成一个该事件的文档聚类。 按照以上方法步骤,我们分别构建了网页、人民日报、CCTV新闻的共140个事件的评测集以及他们的相关文档集合。 评测集的使用 聚类结束后,我们要评估聚类结果的好坏。针对评测集的每一个人工标定的事件,我们从聚类结果中找到和他最相似(交集最多)的类,然后计算与评测集之间的一系列评估指标的关系。如精确率,召回率等等。最后我们得到这些指标的平均值,就得到了聚类结果在评测集上的定量效果。 评测指标的选定: 对于聚类的结果,我们主要有如下几个评测指标: 精确率:对于聚类结果的类,相关文档与类中总文档的比值;也就是说,包含的噪音(不相关文档)越少,精确率越高。 召回率:对于聚类结果的类,相关文档与评测集类总文档的比值;也就是说,漏掉的相关文档越少,召回率越高。 P@N:聚类文档间排序后前N个文档的精确率。考虑这个指标主要是因为搜索的页面展示使然,因为一般人只会关心和点击前10个文档或者前20个文档,所以这些文档是否精确是我们很关心的。 对于事件挖掘和搜索这个任务来说,我们最后选定了召回率和P@10作为优先考虑的指标。原因如下: 实践发现,挖掘提供给检索的聚类结果来说,最要紧的是不要漏掉相关文档。因为最后展示来看,第一页提供10个左右的文档,目前的检索模型都能达到较高的精确率(90%以上)。所以相对于精确率来说,召回率更重要。 考虑P@10的原因也是因为检索的展示需要。 附录 人工标注的评测集合 此附录为所有数据来源下产生的评测事件集合,其中大事件70个,小事件69个,共有相关文档26898篇。事件的描述见附上的Excel表格。 Type Query Related Docs Count big20080828 奥林匹克运动会 奥运会 2919 big20051017 神舟 六号 载人 飞船 2668 big20100430 玉树 地震 1658 big20040915 别斯兰 人质 1315 big20010718 奥运会 申办 申奥 1213 big20010431 王伟 撞机 893 big20050512 反法西斯 60周年 俄罗斯 847 big20081005 神舟 神七 宇航员 出舱 677 big20060710 青藏 铁路 全线 通车 671 big20110330 日本 海啸 核危机 核电站 643 big20060830 台风 桑美 东南 沿海 640 big20050616 法国 荷兰 否决 欧盟宪法条约 614 big20051210 松花江 中石油 595 big20040328 台湾 陈

文档评论(0)

tangzhaoxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档