资料库索引法-LIPS语言资讯处理系统实验室.ppt

资料库索引法-LIPS语言资讯处理系统实验室.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料库索引法-LIPS语言资讯处理系统实验室.ppt

資料庫結構、組織與檢索 黃慕萱,Chap. 2-3 Harter, Chap. 3 資料庫結構 資料庫組織方式 indexed-sequential hierarchical relational 資料庫組成元素 Database ? Records ? Fields ? Subfields 資料庫基本名詞定義 Record(紀錄) 用來儲存以供檢索之文件描述 Entity(實體) 儲存資訊的物件 e.g.一本書、一篇文章 Attribute(屬性) 可用來描述實體的特性 Value(屬性質) 用來描述實體特性的內容 Field(欄位) 用來描述屬性質的一串字元 Subfield(次欄位) Data(資料) 屬性與屬性值—以書為例 資料組成元素 基本檔案結構 Linear file(線性檔)--Print file 依每一筆資料的編號連續儲存 Inverted file(倒置檔)-- Index file 將線形檔中每一個可供檢索的字依字母順序排列,並指出此字在線形檔中的位置 可知此字出現在哪些紀錄,且方便直接調閱該紀錄 常見倒置檔 基本索引檔 (basic index file) 附加索引檔 (additional index file) 索引典檔 (thesaurus index file) 訊息檔(Posting file) 書目記錄結構與欄位— 以ERIC為例 DIALOG BlueSheet 所提供之資料 /bluesheets/html/bl0001.html Resources in Education (RIE) 14,000 documents each year Current Index to Journals in Education (CIJE). 20,000 journal articles, extracted from more than 750 serials DIALOG—ERIC 線形檔 DIALOG—ERIC 基本索引檔 DIALOG—ERIC 附加索引檔 DIALOG—MathSCi 索引典 ERIC -- OCLC ERIC – EBSCO ERIC – ProQuest 資料庫索引法 常見索引法 單字索引法(word indexing) 片語索引法(phrase indexing) 單字與片語混合索引法(word and phrase indexing) 數字索引法(numeric indexing) 輔助索引法 布林邏輯運算元(Boolean logic operator) 切截法(truncation) 相近運算元(proximity operator) 特定限制欄位檢索法 檢索用法查證法 求全率v.s.求準率 求全率 recall ratio 成功檢索到相關資料的比率 = 求準率 precision ratio 沒有檢索到不相關文獻的比率 = 單字索引法(word indexing) 將欄位中所有可供檢索的字逐一索引,鍵入倒置檔 通常用於主題相關欄位,以非控制詞彙表示 如題名、摘要、全文 剔除停用字(Stop word) DIALOG的停用字: as 、and 、by 、for 、from 、 of 、the 、to、with 可透過後組合(post-coordination)方式,以布林邏輯運算元組合查詢 the evaluation of databases? evaluation、databases 片語索引法(phrase indexing) 或稱複合語索引法 以一個獨立款目為單位進行檢索,包含空白與標點符號 作者、資料型態、期刊名稱、出版語言 檢索者在檢索時,必須以系統製作時的著錄方式檢索,甚至所有的標點符號和空格都需一致,方能檢索到資料 如Bush, George Herbert Walker 單字與片語混合索引法(word and phrase indexing) 多出現於與主題標目相關欄位 保有單字索引法的組合彈性和片語索引法的精確 檢索者知道控制語彙時?採用片語檢索,以提高確性 檢索者不知道控制語彙時?利用單字組合檢索,提高檢索的回現率 檢索點較多,如consumer attitudes 以單字索引法? “consumer”、”attitudes” 使用片語索引法?”consumer attitudes” 使用混合索引法? “consumer”、”attitudes”、 “consumer attitudes” 缺點為佔用資料庫儲存空間 數字索引法(numeric indexing) 常用於欄位內所包含的內容均為數字時 商情名錄資料庫之公司基本資料?公司資本額、人數、銷售數據 統計資料庫 可依據數字大小排列,進行各項排序、比較、計算

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档