- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生醫光譜與光學影像技術 面向文件的智能信息處理 授課老師:高成炎教授 修課學生:蔡尚儒(、郭濬騰( 時間地點:2007/06/21 outline 資訊檢索 資訊提取 文件自動分類 第一節--資訊檢索 資訊檢索的任務 資訊檢索系統的組成 Boolean Model Vector Space Model 檔案索引和停用詞表 資訊檢索系統的評價 資訊檢索任務的困難 資訊檢索 1.資訊檢索的任務 為獲得須求的資訊,我們常使用搜尋引擎。 資訊檢索 Google的特殊功能舉例 或,鍵入【台語--資料庫】 須連接在一起,鍵入【”台語資料庫”】 排除,鍵入【休旅車 -nissan】 定義,鍵入【define:台語】 特定站點,鍵入【site:.tw 台語 】 資訊檢索 2.資訊檢索系統的組成 通常系統內部有一個包羅萬千的【資料庫】,搜尋引擎從中尋找用戶須求的內容。 由於資料庫很大,又期待很快找到要找的資料,所以要建立資料庫【索引】,和【回饋機制】。 資訊檢索 2.資訊檢索系統的組成 以下是有名的三種資訊檢索模型。接下來介紹的是前兩種模型: Boolean Model Vector Space Model Probabilistic Model 資訊檢索 3.Boolean Model The mathematics of logic, developed by English mathematician George Boole in the mid-19th century. And、Or、Not組成的檢索系統 資訊檢索 3.Boolean Model 可指定【可出現】和【不可出現】的關鍵字,故可利用修改輸入的關鍵字和語法,去獲得更精簡的搜尋結果。然而… 出現的缺點是,有時一張圖、一篇文章雖未含有關鍵字,但卻是和客戶須求的資料密切相關。 資訊檢索 4.Vector Space Model 查尋和檔案都表示成n維空間向量,檢索統計兩者間的相關性,並按照相似性的大小排序,表現給客戶參考。以下是Model的基本組成… Index term:索引項是代表檔案主題的關鍵字。 Vocabulary:所有檢索項構成一個詞彙表。換言之,詞彙表可定義一個n維空間,將n個檢索項,表示成T1、T2、…、Tn。 資訊檢索 4.Vector Space Model 一種建立檔案向量的方式是,以index term在檔案中是否出現,來建立檔案向量。以下是一例: d1=(1,0,1),檔案d1中,有T1、T3,不含T2。 另一種建立檔案向量的方式是,以index term在檔案中出現的次數建立檔案向量。以下是一例: d1=(2,3,5),檔案d1中,出現2次T1、3次T2和5次T3 。 d2=(3,7,1),檔案d2中,出現3次T1、7次T2和1次T3。 q =(0,0,2),查尋q中,出現2次T3。 資訊檢索 4.Vector Space Model 最後,利用【內部檔案向量】和【外部查尋向量】間的距離、夾角大小,來排列出相關性。與查尋向量距離、夾角越小的檔案向量,其相關性越大。 夾角餘弦法,是較常見的計算方法。當兩向量間的夾角越小,則兩向量間的檔案相關性越大。 資訊檢索 5.檔案索引和停用詞表 介紹Inverted index的機制,如下圖: Index:列出檔案庫中所有的索引項。 Postings list:對應一個index,且紀錄了多個其所對應的檔案,數字則表示【檔案中第n個詞】符合索引。 資訊檢索 5.檔案索引和停用詞表 利用Inverted index,我們不須掃描所有檔案,只須掃描索引,從位置表獲得對應的檔案。此外.. 我們須建立【索引的停用詞表(stop list)】,例如:我、的、the、of…。根據統計,只要停用十個stop list上的字,可節省一半以上的儲存空間。 資訊檢索 6.資訊檢索系統的評價 從兩個角度出發: 檢索速度能多快,是否能快速完成搜尋。 檢索系統的準確度,通常用以下準則去看: 檢索結果中有多少檔案真正相關,用Precision量化計算: Precision= 檔案庫中多少相關檔案被系統檢索出來,用Recall量化計算: Recall= 資訊檢索 6.資訊檢索系統的評價 Fallout可衡量檔案庫中,所有無關的檔案有多少被錯誤的檢索出來,量化計算的公式如下: Fallout= 有高的準確率將檔案檢索出來,也須能將其【排到搜尋結果的前面幾頁】,而不是都在後面幾頁或散佈在各頁,使用者操作多次後,便會覺得此檢索系統不好使用。 資訊檢索 7
您可能关注的文档
最近下载
- 2025年海南省通信网络技术保障中心招聘事业编制人员考试笔试试题(含答案).pdf
- 海上作战与三十六计(中国人民解放军海军潜艇学院)网课章节测试答案.pdf
- 免费党建课件ppt5篇.pptx VIP
- J06J106 烧结非黏土多孔砖夹心墙构造.docx VIP
- (高清版)ZT 0170-2020 浅层地震勘查技术规范.pdf VIP
- (高清版)DB36∕T 1643-2022 健康体检机构运行管理规范.pdf VIP
- 《学前教育研究方法》全套教学课件.pptx
- 测试部门年终总结PPT.pptx VIP
- DB2224_T 5-2023 朝鲜族橡子凉粉制作技术规程.doc VIP
- 钛材产品手册.pdf VIP
文档评论(0)