情報検索システムの評価法.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
情報検索システムの評価法.ppt

情報検索システムの評価法 評価法 再現率、適合率 F値など 一般的な検索結果の状態 質問qで結果の文書集合が得られた。しかし、結果の中には間違いもあるし、得られなかった文書の中にも正解がありうる。 検索エンジンの性能評価 再現率 適合率あるいは精度 精度とは右の定義の場合もあり フォールアウト 一般性 再現率 vs 適合率 よく使う評価の表現法 再現率 vs 適合率に関連した尺度 Break even point   再現率と適合率が一致する点 11点平均適合率 再現率=0.0 , 0.1, 0.2, ….. 0.9, 1.0 の11点における適合率の平均値 F値  ただし、bは適合率が再現率よりどれだけ重視されているかを示すパラメタ 普通はF値というと、b=1の場合で、この場合はprecision:pとrecall:rの幾何平均 順位つき検索結果の評価 ブーリアン検索では検索結果は全て同等 ベクトル空間法やPageRank、HITSでは検索結果が質問に適合した順番に並ぶ。(表示も適合順) この場合の評価法について Recall , Precision 質問qに適合する結果(以下、正解、という)の数: |Dq | 検索エンジンの順位つけられた結果:  (d1…….dn) di が質問qへの正解なら ri=1、 そうでなければ ri=0   とする。すると、 第k順位まで拾ったときの 平均適合率:average precision 例: 平均逆順位:Mean Reciprocal Rank(MRR) 例 テストコレクション (a) 文書集合、(b) 多数の質問、(c)各質問に対する適合文書の集合、を組にしたデータベースをテストコレクションと呼び、情報検索システムの性能評価において必須の資源である 正解集合を作ることは大規模テストコレクションでは困難 Pooling method:、 同一の文書集合に対して、多数の検索エンジンで同じ質問を出し、上位N 個の検索結果を全て集める。N の値として、100 程度が多い。この結果に対してのみその適合性を人手で判断し、それを文書集合全体における適合した文書とする * 文書集合全体 質問qで検索された文書 質問qに適合している 文書 fn fp tp tn 再現率 適合率 0 0.5 1.0 1.0 0.0 〇 4 6 5 3 2 〇 1 正解か 順位 〇 4 6 5 3 2 〇 1 正解か 順位 *

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档