- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
李静静-中文web信息检索论坛
SEWM2006中文Web检索评测 李静静 北京大学网络实验室 主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果 总结及讨论 三个问题 为什么要评测? 社会问题:用户是否需要某个系统? 经济问题:某个系统值得用么? 评测什么? 查询处理时间,检索结果输出,查全率,查准率等 如何评测? 规范的测试集 评估方法, 如 P@n, R-P等 TREC的四个目标 大规模测试集为基础,推动信息检索的研究 经由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通 经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品 发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术 SEWM2006中文Web检索评测 目标 研究有效的主题提取方法 针对用户给定的广泛查询,找到一组最佳的主页 研究有效的导航搜索方法 找到用户需要的特定页面 研究评估系统的稳定性 研究不同的方法在不同的数据集中的优劣及其原因 构建了CWT200g和CWT20g 参加者对自己采用的每一种检索方法都尽可能提交针对这大小两个数据集的运行结果 主题提取(Topic Distillation) 对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的首页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分 导航搜索方法(Navigation search) 主页查询(Home Page finding,HP) 通常是一个网站的主页 指定页面查询(Named Page finding,NP) 满足用户需求的特定页面 评测准则 第一个正确答案出现位置的倒数平均值(MRR) 主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果 总结及讨论 测试集使用框架 CWT200g/CWT20g文档集 CWT200g文档集的构建-前期处理 CWT200g文档集的构建-网页抓取(中期) 多线程抓取 广度优先抓取,限制抓取3层 单个网站抓取容量不限,抓完停止 抓取了部分动态网页 CWT200g文件集的构建-后期处理 全局MD5消重(网页级消重) 充分消除冗余 先抓取 后采样 提高采样准确性 采用压缩的天网格式保存 进一步提高信息量 TD主题示例 top numNumber:TD182 title法律援助/title descDescription: 中国法律援助的现状,需求等报道,及寻求法律援助的论坛等 /top 导航搜索主题示例(HP/NP) top numNumber:NP878 title都江堰在线/title /top top numNumber:NP815 title法学视野中的高校学生申诉制度/title /top 相关答案集构建流程 主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果 总结及讨论 2006年提交结果的参赛队 评测方法 TD主题提取 P@10, R-P, bpref 导航搜索 MRR TD评测结果 TD评测结果 NPHP评测结果 主要内容 Web检索评测介绍 CWT200g CWT20g 评测结果 总结及讨论 关键是“可比性” 系统的得分高低是没有多大意义的 当相关判断结果不同时,得分不同 相同测试集上的结果才有可比性 200G和20G是两个不同的测试集 在不同的测试集上比较结果得分是无效的 评测的可信度 在多个测试集上评测可以提高评测可信度 主题集大小对评估稳定性有影响 主题数目越多,评估结果越稳定 参赛队少,相关答案集不全 传统的方法如MAP可能不够好 解决方案: 采用新的评估方法,如bpref 谢谢大家! NPHP评测结果 评测方法 P@10、R-P、MRR 用户有时候会用名称来查询特定的网页。在这种情况下,一个有效的检索系统将在第一个或前几个返回结果中给出那个网页。 这项任务是两个子任务的组合:HP查询和NP查询。这两种情况下,查询结果只有一个并且用户的查询需求常常是页面的名称。不同的是HP查询的目标是一个通常是一个网站的主页,而指定页面查询所找到的可以不是一个主页,而是满足用户需求的特定页面。 评判规则为:判断参与者返回文档的URL是否为最初选定文档的URL。当然,如果页面有两个不同的URL,那么这两个都将被认为是正确的答案。通过第一个正确答案的位置对系统进行比较。以第一个正确答案出现位置的倒数平均值(MRR)为评估准则。 自从1950年代末期Cranfield实验开始,测试集(test collec
您可能关注的文档
最近下载
- GB_T 26949.1-2020工业车辆 稳定性验证 第 1 部分 总则.docx VIP
- 皮肤科临床诊疗规范2020版.pdf VIP
- 医用耗材培训、运输、售后服务方案.docx VIP
- (高清版)B-T 26949.4-2022 工业车辆 稳定性验证 第4部分:托盘堆垛车、双层堆垛车和操作者位置起升高度不大于1 200 mm的拣选车.pdf VIP
- 2024年6月青少年软件编程图形化等级考试试卷三级真题(含答案).docx VIP
- 医院病例:(鼓楼临床医学院(内分泌科—1型糖尿病)——病例.doc
- 足部保健按摩.ppt VIP
- 初化学空气与氧气知识点复习.doc VIP
- 斜视课件(ppt文档).pptx VIP
- 供货、安装、调试、验收方案.docx VIP
文档评论(0)