李静静-中文web信息检索论坛.pptVIP

下载本文档

3
0
约6.23千字
约 29页
2018-04-23 发布于天津
举报
版权申诉

李静静-中文web信息检索论坛.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

李静静-中文web信息检索论坛

SEWM2006中文Web检索评测李静静北京大学网络实验室主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果总结及讨论三个问题为什么要评测？社会问题：用户是否需要某个系统？经济问题：某个系统值得用么？评测什么？查询处理时间,检索结果输出,查全率,查准率等如何评测？规范的测试集评估方法, 如 P@n, R-P等 TREC的四个目标大规模测试集为基础，推动信息检索的研究经由开放式的论坛，使与会者能交流研究的成果与心得，以增进学术界、产业界与政府的交流互通经由对真实检索环境的模拟与重要改进，加速将实验室研究技术转化为商业产品发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术 SEWM2006中文Web检索评测目标研究有效的主题提取方法针对用户给定的广泛查询，找到一组最佳的主页研究有效的导航搜索方法找到用户需要的特定页面研究评估系统的稳定性研究不同的方法在不同的数据集中的优劣及其原因构建了CWT200g和CWT20g 参加者对自己采用的每一种检索方法都尽可能提交针对这大小两个数据集的运行结果主题提取（Topic Distillation）对于一个特定主题发现一组关键资源注重以站点作为资源的查询要求是在前十个结果中寻找尽可能多的不同站点（用它们的网站的入口页面表示）判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题；提供主题的可靠的信息；不是一个更大的切合主题站点的一部分导航搜索方法(Navigation search) 主页查询(Home Page finding，HP) 通常是一个网站的主页指定页面查询(Named Page finding，NP）满足用户需求的特定页面评测准则第一个正确答案出现位置的倒数平均值（MRR）主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果总结及讨论测试集使用框架 CWT200g/CWT20g文档集 CWT200g文档集的构建-前期处理 CWT200g文档集的构建-网页抓取(中期) 多线程抓取广度优先抓取，限制抓取3层单个网站抓取容量不限，抓完停止抓取了部分动态网页 CWT200g文件集的构建-后期处理全局MD5消重(网页级消重) 充分消除冗余先抓取后采样提高采样准确性采用压缩的天网格式保存进一步提高信息量 TD主题示例 top numNumber:TD182 title法律援助/title descDescription: 中国法律援助的现状，需求等报道，及寻求法律援助的论坛等 /top 导航搜索主题示例(HP/NP) top numNumber:NP878 title都江堰在线/title /top top numNumber:NP815 title法学视野中的高校学生申诉制度/title /top 相关答案集构建流程主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果总结及讨论 2006年提交结果的参赛队评测方法 TD主题提取 P@10, R-P, bpref 导航搜索 MRR TD评测结果 TD评测结果 NPHP评测结果主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果总结及讨论关键是“可比性” 系统的得分高低是没有多大意义的当相关判断结果不同时，得分不同相同测试集上的结果才有可比性 200G和20G是两个不同的测试集在不同的测试集上比较结果得分是无效的评测的可信度在多个测试集上评测可以提高评测可信度主题集大小对评估稳定性有影响主题数目越多，评估结果越稳定参赛队少，相关答案集不全传统的方法如MAP可能不够好解决方案：采用新的评估方法，如bpref 谢谢大家！ NPHP评测结果评测方法 P@10、R-P、MRR 用户有时候会用名称来查询特定的网页。在这种情况下，一个有效的检索系统将在第一个或前几个返回结果中给出那个网页。这项任务是两个子任务的组合：HP查询和NP查询。这两种情况下，查询结果只有一个并且用户的查询需求常常是页面的名称。不同的是HP查询的目标是一个通常是一个网站的主页，而指定页面查询所找到的可以不是一个主页，而是满足用户需求的特定页面。评判规则为：判断参与者返回文档的URL是否为最初选定文档的URL。当然，如果页面有两个不同的URL，那么这两个都将被认为是正确的答案。通过第一个正确答案的位置对系统进行比较。以第一个正确答案出现位置的倒数平均值(MRR)为评估准则。自从1950年代末期Cranfield实验开始，测试集（test collec