第五章资料实测与效能分析.PDFVIP

  • 0
  • 0
  • 约2.17万字
  • 约 17页
  • 2018-04-11 发布于天津
  • 举报
第五章资料实测与效能分析.PDF

第五章 資料實測與效能分析 本章將實際測試與分析 RealRankBoost的排名效能,我們採用微軟亞洲研究院 (Microsoft Research Asia)所訂定的排名學習評量標準 LETOR (Learning to Rank for Information Retrieval)作為效能的評估,並且設計各項實驗檢驗演算法在不同測試下的成 效,以及探討演算法特質。 政 治 立 大 國 學 5.1 LETOR 排名評測標準 ‧ ‧ LETOR[14]是由微軟亞洲研究院於 2007 年在 SIGIR 提出對排名學習的評測基準 N y a t (benchmark) ,裡面包含多個資料集(dataset) ,每個資料集皆有人工判定結果(human t i i s o r judgment) ,以及數個排名演算法的評比成績供人作標準。LETOR 為第一個對排名所設 n e a v l i n 計的評測資料集,在此之前每當一個新的排名演算法提出時,效能評測所使用的資料集 C U hengchi 與設定條件皆不盡相同,沒有一項公定標準可評判排名演算法的優劣,所以 LETOR便 提出第一個排名評測基準,而 LETOR資料集的設計是以資料檢索 (information retrieval, IR)為主,採用 OHSUMED 與 TREC(Text Retrieval Conference)的 web information retrieval ,且訂定三項為IR設計的排名效能計算標準。 5.1.1 Dataset LETOR的資料集取於 OHSUMED 與 TREC 2003, 2004 ,原始資料包含查詢、相 33 對應文件、及人工判定三部分,LETOR再對每個 query-document 萃取特徵值,加上 文件對查詢的相關性的人工判定成為一筆資料,以下我們將對兩個資料集做介紹。 5.1.1.1 OHSUMED Collection OHSUMED[15]是醫學出版資料庫 MEDLINE的一個子集合,包含了 1987 年 到 1991 年 270個醫學雜誌內容共 348566個文件紀錄,每筆紀錄含標題、摘要、 作者、出處、和出版等資訊,並且參照 SMART(System for the Mechanical Analysis and Retrieval of Text) 系統格式,每筆資料有8個 field ,涵義如下: .I Sequential identifier .U MEDLINE identifier (UI) .M

文档评论(0)

1亿VIP精品文档

相关文档