中文检索系统索引方法之研究-淡江大学.DOCVIP

中文检索系统索引方法之研究-淡江大学.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文检索系统索引方法之研究-淡江大学

利用各種音字索引輔助中文連字檢索之分析 Analysis of Character and Phonetic Bigram Indexing for Phrase Based Chinese Information Retrieval 王彥彬 淡江大學資訊管理研究所 red@.tw 摘要 中文查詢中,索引的編製會影響在查詢中的正確性,故在編製索引時,常面臨適當索引詞的特徵選取問題,本文針對不同的索引方式,包括N字詞索引法、注音索引法及詞庫索引法做索引成本之分析,並測試各索引法在不同查詢情況下的表現。 根據實驗結果,在一般查詢下,雙字詞索引的正確率表現較為優異;詞庫索引法之索引量需求較少,但正確率不高故比較適合於針對單一特定領域做檢索,因為使用者對資訊的認知較為一致。雙音索引法可以部分解決查詢別字/異體字的問題,在檢索外國譯名或不能確定的人名、地名等問題上,使用雙音索引的方式可以改善這個問題。 關鍵詞:雙字索引、雙音索引、中文資訊檢索 壹、簡介 所謂的索引就是在文件中能夠代表文件的項目。索引一般分為兩種,一為分類索引,如圖書館的檢索系統分為書名、作者名、年代等固定選項的索引方式;另外一種為全文檢索,是針對文章中的內容做字串查詢。中文索引的編製,很大一部分取決於自動斷詞的結果,目前大部分編製索引大都採取詞庫或N字詞的斷詞方法。 為探討以音、字與字典編製索引的表現,本實驗將傳統用BIG5中文字編索引的方式以文字本身的注音編碼取代。圖一為BIG5中文字注音對照表之一部分。如圖1所示,我們將中文字”保”、”寶”等同音字皆視為同一音”ㄅㄠˇ”,並以數字編號”@159” 為其注音編碼代碼。 圖1:BIG5碼注音對照 BIG5中文字約有一萬三千餘字,但是發音之組合只有1319種。以編製索引的角度來看,索引詞不重複情況下,以注音取代BIG5單字詞,其比例是1319比13889,只有十分之一;雙字詞組合與雙音詞組合維度更是只達到百分之一。不過,中文常用字其實只有4000~5000字,另外雙字的組合也並非每一種都有。而利用字典斷詞的方式與N字詞斷詞也會有不同的效果。 故本研究目的在探討以注音碼編製索引、傳統BIG 5碼及字典編製索引的作法,在索引量上及檢索時所表現出的正確率上之差異。另外,也比較在查詢時,若有異體字或同音錯別字出現於查詢字串中的檢索表現。 貳、文獻探討 一、斷詞及索引 文章的內容主要以字詞為組成單位,因此斷詞也成為分析文章一項重要的步驟。一般常見的索引斷詞有詞庫[4]及N字詞斷詞[3][7]二種方式。 詞庫斷詞法主要是利用一套已經整理好的詞庫,用以比對所輸入的文件,然後擷取在文章中詞庫有包含的字詞。但是要如何準備或收集一套完善的詞庫是一個頗為重要的關鍵,因為一些有意義的字詞會受限在詞庫沒有收錄的情況下而被省略,舉凡一些專有名詞、新詞往往都會無法斷出。 N字詞的作法,如一字詞即為將詞句“甲乙丙丁”斷為甲、乙、丙、丁,二字詞為將”甲乙丙丁”斷為甲乙、乙丙、丙丁。N字詞的斷詞法最大的好處在於可以保留住專有名詞和產生的新詞,而且不需要事先準備詞庫,但是可能會造成太多無意義字詞的產生,而且會造成相當大的索引量。當N越大時索引量也會相對的變大。 在王稔志的研究中[1],提出實驗證明認為關鍵詞的選取,雙字詞比詞庫斷詞法有較好的效果。在杜海倫的研究中[2],在中文中二字詞比例高出其他甚多,而三字詞多半都可以用二字詞代表出其特徵,四字詞以上多為專有名詞,因此她認為在語詞長度上選擇二字詞是較好的選擇。 二、索引空間 一般作法上,檢索系統多採用索引的方式,但雙字甚至多字都太消耗索引空間,為求檢索快速,通常都採用將索引詞全部放在記憶體上的作法[9],因此索引詞的容量不宜太大。 在Zhong Gu[10]的研究中,利用雜湊法的方式,縮減了在字典查詢時產生的索引量空間。在Miller[6]的研究中,利用gamma壓縮法的方式也可將反轉索引空間壓縮約為0.75倍。但因為壓縮會增加資料結構之複雜度,故本文不考慮壓縮情況。 三、中文連字查詢 在Jian-Yun Nie[8] 的研究中,測試各種不同斷詞方式下檢索的正確率[圖2],發現利用長字詞比對,加上字典,及搭配未知字詞、單字詞是比較好的方式。在其研究中,二字詞的表現並不會太差,而且在二字詞搭配一字詞的情形下準確率也有所提升。但其研究並不建議採用二字詞的索引方式,原因為二字詞的維度太大。 圖2:Jian-Yun Nie 研究結果圖 又中文查詢時,常會有異體字(如”沉”和”沈”)、同音別字(如查詢”瑪麗亞”或”馬利亞”)的問題產生,尤其在譯名查詢時特別常見。傳統作法為列出常見異體字或同音別字對照表逐一替換[5],

您可能关注的文档

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档