第五章资料实测与效能分析.PDFVIP

下载本文档

0
0
约2.17万字
约 17页
2018-04-11 发布于天津
举报

第五章资料实测与效能分析.PDF

第五章資料實測與效能分析本章將實際測試與分析 RealRankBoost的排名效能，我們採用微軟亞洲研究院 (Microsoft Research Asia)所訂定的排名學習評量標準 LETOR (Learning to Rank for Information Retrieval)作為效能的評估，並且設計各項實驗檢驗演算法在不同測試下的成效，以及探討演算法特質。政治立大國學 5.1 LETOR 排名評測標準 ‧ ‧ LETOR[14]是由微軟亞洲研究院於 2007 年在 SIGIR 提出對排名學習的評測基準 N y a t (benchmark) ，裡面包含多個資料集(dataset) ，每個資料集皆有人工判定結果(human t i i s o r judgment) ，以及數個排名演算法的評比成績供人作標準。LETOR 為第一個對排名所設 n e a v l i n 計的評測資料集，在此之前每當一個新的排名演算法提出時，效能評測所使用的資料集 C U hengchi 與設定條件皆不盡相同，沒有一項公定標準可評判排名演算法的優劣，所以 LETOR便提出第一個排名評測基準，而 LETOR資料集的設計是以資料檢索 (information retrieval, IR)為主，採用 OHSUMED 與 TREC(Text Retrieval Conference)的 web information retrieval ，且訂定三項為IR設計的排名效能計算標準。 5.1.1 Dataset LETOR的資料集取於 OHSUMED 與 TREC 2003, 2004 ，原始資料包含查詢、相 33 對應文件、及人工判定三部分，LETOR再對每個 query-document 萃取特徵值，加上文件對查詢的相關性的人工判定成為一筆資料，以下我們將對兩個資料集做介紹。 5.1.1.1 OHSUMED Collection OHSUMED[15]是醫學出版資料庫 MEDLINE的一個子集合，包含了 1987 年到 1991 年 270個醫學雜誌內容共 348566個文件紀錄，每筆紀錄含標題、摘要、作者、出處、和出版等資訊，並且參照 SMART(System for the Mechanical Analysis and Retrieval of Text) 系統格式，每筆資料有8個 field ，涵義如下： .I Sequential identifier .U MEDLINE identifier (UI) .M

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第五章资料实测与效能分析.PDFVIP