省索引空间之中文全文检索系统.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
省索引空间之中文全文检索系统.PDF

2009 年資訊科技國際研討會論文集 省索引省索引空間空間之中文全文之 中文全文檢索系統檢索系統 省省索引索引空間空間之之 中文全文中文全文檢索系統檢索系統 魏世杰 于致文 沈英謀 王建仁 淡江大學 崑山科技大學 崑山科技大學 崑山科技大學 資訊管理學 資訊管理學 資訊管理學 資訊管理學 seke@.tw leo.yu1987@ shenyin@.tw cjw@.tw 摘要摘要 the Chinese processing functionality to the 摘要摘要 全文檢索一直是文件查詢者的最愛,因為 MG’s indexing and query capabilities. As 能毫無遺漏的查到所有內文出現查詢字的文 result a web interface for Chinese query will 件。中文全文檢索系統受限於字碼及斷詞問 be demonstrated. Furthermore, given a 題,一直要到 1995 年蓋世引擎的面世才有較 Chinese document dataset, comparison will be made among MG, Google Desktop, 快的進展,但是蓋世引擎並不開放原始碼,無 Microsoft Windows Search, and 從改善功能 。目前提供開放原始碼之中文全文 DataparkSearch in terms of the index size 檢索系統以DataparkSearch 表現最佳 ,但其需 and the indexing time. 要外來資料庫存放索引檔作法較耗硬碟空 Keywords: Open Source, Index Compression, 間。MG 為一提供開放原始碼之英文檢索 Document Retrieval System 統,採用特殊壓縮檔案結構儲存索引資料 ,不 需外來資料庫輔助,能節省硬碟資源,唯其缺 1. 前言前言 前言前言 點為不能識別中文碼。本文利用MG 系統原有 之索引及查詢能力 ,為其加上中文識別模組, 相對於目錄檢索 ,全文檢索一直是文件查 方便使用者對中文文件製作索引及進行查 詢者的終極最愛 ,因為能毫無遺漏的查到所有 詢。結果部份將呈現中文化MG 系統之網頁檢 內文出現查詢字的文件。但是傳統的檢索系統 索介面 ,並比較相同中文文件集下,MG 、 受限於電腦容量及數位資料尚未普及,多只支 DataparkSearch 、Google Desktop 及 Windows 援以作者 ,標題,關鍵詞,出版年份等欄位為 Search 在索引檔大小及編製索引時間上差異 。 對象的目錄檢索 ,例如常見的圖書館線上公眾 存取目錄(online public access catalogue ,簡稱 關鍵詞關鍵詞:開放原始碼、

文档评论(0)

sunyangbill + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档