1资讯检与撷取期末专题报告.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
資訊檢索與擷取期末專題報告 電機所 博二陳建錦 ntu.edu.tw 前言 : 本次專題主要在於實作資訊檢索的各項元件,運用到的 IR 元件包含了 SGML parser 、stoplist 、stemming 、inverted file 與posting 。Inverted file 我是以B-tree資 料結構來儲存,而posting information是以 link list 來存放。而B-tree inverted file 與posting information在 index 完畢後會存於local disk 上以便日後查詢。在實做 的過程中,我發現一個設計良好的 posting資料結構會有助於查詢與 index的速 度,由於我將每個 index term 其posting information 以一個作業系統檔案來存放, 在查詢或( dump index)時為了要讀取每一查詢字的 posting information ,會造成大 量的 disk I/O 進而延遲了系統效能,若能將posting information用一有效的方式 管理 (如將所以posting information及結成一個作業系統檔案且能快速的載入記憶 體 ) ,我想必能提升查詢與index的速度。而本次實做讓我更了解一些 IR的運作 細節,可說是收穫豐厚。 系統概述: 本次實作的系統包含兩隻主要的程式: (1)Indexer 與(2)QueryRetriever 。Indexer 主 要的工作是將所有文件 (FBIS3 與 FBIS4)內的字抽取出來並將其建成一 B-tree inverted file ,此外,還將每個index term的 posting information 以一文字檔儲存。 QueryRetriever的工作是將 B-tree inverted file載入到記憶體內,並依查詢主題內 的字詞找出對應的 posting information ,最後再將所有曾出現在posting內的文章 算分數且依分數高低排序後輸出結果。我先介紹 Indexer ,接著再說明 QueryRetriever 。 圖一為 Indexer的流程圖,首先,我會分析所有的 FBIS檔案,透過 SGML parser 來取出每一篇文章,並將文章存於local disk下(存於系統路徑\data\documents\) , 在此,我們只針對文章的標題與本文作處理。若文章屬於 FBIS3 ,則相關檔名以 3 為開頭,而檔名開頭為4者表示其屬於 FBIS4 。接著,我們一一處理每篇文章, 我們取出文章內的每一個字,在進行後續步驟前我們先會將其轉成小寫且移除標 點符號,接著,我們會判斷該字是否為數字,若是數字則忽略不 index ,然後我 們判斷該字是否為一 stop word1 ,若是,則忽略不管,通過考驗的字則利用Porter stemming的演算法還原字根,而字根會再運用另一 stop list 來進一步的濾除無意 義的字。通過上述關卡的字就是我們的controlled vocabulary ,我們會將其建成一 inverted file 以供日後查詢。 1 Stop word list 與stemming stop word list 均透過搜尋引擎來得取。Porter stemming algorithm則是 使用 public domain所 share的版本。 1 圖一, Indexer的流程圖。 我採用B-tree的方式來建立 inverted list ,B-tree 上的每個node (程式內的資料結 構為bt_node)最多可包含 23個 element(bt_element) ,每個element代表一個要 index 的字,其包含的資訊有 term(也是 B-tree內用來做比較的 key) 、k_id 為term的 id , 這個 id 會對應到 local disk 上一個 posti

文档评论(0)

zcbsj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档