- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4-信息获取系统评价Retrieval Evaluation.ppt
4. 检索评价Retrieval Evaluation 简介 系统评价 功能方面 性能方面 检索性能评价 IR系统需要评价结果集的准确度 评价一个IR系统 功能评价 功能性分析 系统是否提供了用户所希望的大多数功能? 系统提供了什么独特的功能? 系统是否用户友好? 错误分析 系统查询结果失败的频率怎样? 用户使用系统是不是容易出错? 性能评价 给定一个查询,系统性能怎样? 如何定义查询性能? 查询目标是不是检索所有相关信息? 有没有可能知道系统找到了所有相关信息? 给定用户的信息需求,系统性能如何? 找到的信息是否有用? -- 相关性relevance 相关性Relevance Relevance — 词典定义: Pertinence to the matter at hand 相关性,和手头的事务的相关 Applicability to social issues 实用性,对社会事务的适用 The capability of an information retrieval system to select and retrieve data appropriate to a users needs. 信息检索能力,信息检索系统选择和获取适合用户需要的信息的能力 IR里的相关性 对搜索结果的一种度量 判断什么应该被检索,什么不应该被检索 没有简单的标准说明什么是相关的什么是不相关的 很难明确定义 主观性色彩很强 根据知识、需求、时间、环境等等的不同而不同 IR的一个核心概念 与什么相关? 用户的信息需求 问题? 查询请求? 关于相关性最终的测试是 用户发现信息有用 用户能够用信息解决问题 用户发现通过检索学到了他之前所不知道的一些东西 相关性判断Relevance Judgment 从用户的角度进行判断 检索到的文档从多大程度上满足了用户的需求 检索到的文档有多有用 如果文档有关但没什么用 仍然不是相关文档 从系统的角度进行判断 检出的文档与查询之间匹配程度 有多大可能性用户会判断信息有用 影响相关性判断的因素 主题 文档主题是否与用户查询相关 新颖性 -- 在检出的文档中有多少新信息 质量/准确度/真实性 可用性 本地有镜像还是仅仅是一个链接? 可接入性 是否需要资费 语言是否一致 English or non-English,可读性 相关性度量 二进制的 要么相关要么不相关 具有一定尺度的 不相关 有点相关 相关 非常相关 精确度Precision 和 召回率Recall 给定一个查询,系统应该检索多少文档? 是不是所有检出的文档都是相关的? 是不是所有相关的文档都被检出了? 系统性能的度量 第一个问题是搜索的精度(正确率precision) 第二个问题是关于本次搜索搜没搜全 (召回率recall) 精确度和召回率定义 被检出的相关文档 精确度和召回率的含义 精确度度量了某次搜索搜得的结果有多准确 精确度越高,在搜得的结果集里不希望被搜到的文档就越少 查全率/召回率度量了某次搜索搜得全不全 召回率越高,搜得的结果就越全越不会漏掉文档 关于精确度和召回率 虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样,因此,实际应用中应该考虑这点 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件 有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务 召回率和正确率计算例子 一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档 Recall=80/100=0.8 Precision=80/200=0.4 结论:召回率较高,但是正确率较低 如何计算召回率Recall 对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率 缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在TREC会议中被广泛采用 正确率和召回率 两个指标分别衡量了系统的某个方面,但是为比较带来了难度,究竟哪个系统好? 解决方法:单一指标,将两个指标融成一个指标 两个指标都是基于集合进行计算,并没有考虑序的作用 举例:两个系统,对某个查询,返回的相关文档数目一样都是10,但是第一个系统是前10条结果,后一个系统是最后10条结果。显然,第一个系统优。但是根据上面基于集合的计算,显然两者指标一样。 解决方法:引入序的作用 召回率难以计算 解决方法:Pooling方法,或者不考虑召回率 IR 系统评价 联合使用Recall Pre
您可能关注的文档
- 24有效数字和科学记数法2.doc
- 24电子能谱分析法.ppt
- 26.2方差与标准差.ppt
- 26.3方差和标准差课件.ppt
- 26测量误差概述.doc
- 26猫导学案试用稿.doc
- 2=chap3定量资料的统计描述、参考值范围.ppt
- 2_反应动力学基础.ppt
- 2、2、2、2标准差、方差学案.doc
- 2、专业列表.xls
- 2025年成都市玩偶生产荧光涂鸦互动玩偶开发可行性研究报告.docx
- 2025年成都市海绵生产用于体育馆室外运动场地透水改造可行性研究报告.docx
- 2025年天津市体操鞋企业团建运动应用报告.docx
- 2025年上海市溶洞极限运动(速降)场地开发可行性研究报告.docx
- 2025年上海市涵洞工程施工技术应用可行性研究报告.docx
- 2025年上海市体育场馆设施扎带安全防护可行性研究报告.docx
- 2025年上海市牦牛育肥产业园区建设可行性研究报告.docx
- 2025年旅拍宠物陪伴拍摄项目可行性研究报告.docx
- 2025年上海市进口食品节庆主题快闪店可行性研究报告.docx
- 2025年上海市洗选厂尾矿综合利用产业化可行性研究报告.docx
最近下载
- 肩关节疾三病ppt课件.ppt VIP
- 企业数字化转型L1-L5数据架构设计方法论及案例【52页PPT】.pptx VIP
- 显微镜操作手册-ch axio imager.pdf VIP
- 2025年内蒙古包头市住房发展建设集团有限公司招聘11人笔试模拟试题及答案解析.docx VIP
- 2024年包头市住房发展建设集团有限公司人员招聘笔试备考题库及答案解析.docx VIP
- 2025年内蒙古包头市住房发展建设集团有限公司招聘11人笔试备考题库及答案解析.docx VIP
- 2025包头市住房发展建设集团有限公司招聘笔试备考试题及答案解析.docx VIP
- ____公司销售部绩效考核表模板范本.pdf VIP
- 肩关节解剖课件.ppt VIP
- 浙江省丽水市2024-2025学年高二下学期期末考试地理试卷.docx VIP
文档评论(0)