- 2
- 0
- 约2.26万字
- 约 13页
- 2017-06-08 发布于湖北
- 举报
电子化文件内容撷取技术—结合词汇相关性与关键字撷取模式
2004電子商 務與數位生活研討會
電子化文件內容擷取技術—
結合詞彙相關性與關鍵字擷取模式
侯建良 * ,清華大學工業工程與工程管理學系
詹權恩,清華大學工業工程與工程管理研究所
摘要
在政府大力倡導知識經濟的政策下 ,企業經營相關知識之擷取 、建置 、管理
與分享已逐漸成為企業體於全球運籌體系中保有競爭力之重要課題由於資訊量。
爆增 ,知識需求者如何正確取得知識或進行知識重點觀念之擷取 ,已成為知識管
理系統之重要績效指標 。過去相關研究已針對語意辨識 、模糊搜尋等技術進行深
入研究 ;而此些技術之核心課題 ,乃為詞彙相關性解析與關鍵詞彙擷取 。本研究
之重點包含 「關鍵詞彙相關性解析模式」與 「關鍵詞彙擷取模式」 兩項主題 ,並
應用於企業知識文件管理系統之文件內容萃取 。本研究之特點乃以自動化推論模
式取代人為建構詞彙相關性及擷取文件關鍵資訊之繁雜性除可藉此方法論建立;
符合該知識庫應用環境之相關詞彙庫外 ,亦可透過文件關鍵資訊擷取 ,使知識庫
之搜尋 、檢索分類 、語意辨識或權限控管等任務得以系統化執行 強化產業進行,
知識建置與管理效能。
關鍵字:關鍵字擷取、同義詞、資訊檢索、語意辨識
壹、前言
*
聯 絡 人 : 侯 建 良 , 清 華 大 學 工 業 工 程 與 工 程 管 理 學 系 助 理 教 授
(adamhou@.tw)
- 2 189 -
2004電子商 務與數位生活研討會
在知識經濟時代下 ,企業經營相關資訊 、文件或知識之擷取 、建 置 、管理與
分享已成為企業體於維繫產業競爭力之重要課題 。基於資訊科技與網路技術之快
速發展與廣泛應用,企業知識存取已突破時空障礙,任何知識需求者已可迅速
地 、無遠弗屆地取得大量知識 。然由於資訊量爆增 ,知識需求者如何正確取得知
識或進行知識重點觀念之擷取 ,已成為企業體知識管理能力之重要指標 。目前知
識管理技術多以關鍵字搜尋或檢索技術 ,支援知識需求者取得大量資訊 ;且為確
保此些資訊與實際需求相符 ,知識需求者除需耗費大量時間再瀏覽 、過濾此些資
訊外 ,亦當對關鍵字搜尋或檢索之重點充分掌握 ,以免資訊搜尋之結果與實際需
求發生偏差,而造成重要參考資訊遺漏。
有鑑於此 ,過去相關研究已針對語意辨識 、模糊搜尋等技術進行深入研究;
而此些技術之核心課題乃為詞彙相關性解析與關鍵詞彙擷取 。以詞彙相關性解析
而言 ,過去研究之詞彙相關性定義多鎖定於特定應用領域 ,由領域專家界定專業
詞彙庫與詞彙相關性 ,以作為語意辨識與模糊搜尋之基礎 。此種仰賴領域專家建
構詞彙庫與詞彙相關性之方法 ,除有詞彙相關性認定基準不一之問題外 ,尚可能
因各領域詞庫龐大 ,無法有效界定符合各應用領域需求之詞彙庫 。侯建良與詹權
恩(2003 )以各關鍵詞彙於知識文件中之發生頻率 ,提出一套詞彙相關性自動推
論模式 ,建立相關性詞彙庫 。此方法論並不侷限於特定應用領域 ,故其不僅可減
輕產業建構詞彙相關性時對領域專家之倚賴 ,亦可有效地建構確切符合特定領域
運作之詞彙庫 。就文件關鍵字擷取而言 ,侯建良與孫銘聰 (2003 )乃結合關鍵詞
庫比對與詞彙於知識文件發生頻率兩項作法,界定知識文件之關鍵字。
本研究之重點乃修正過去之詞彙相關性解析法則及關鍵字擷取法則 ,應用於
企業知識文件管理系統之文件內容萃取,以增加領域知識/文件/資訊之檢索、搜
尋與辨識之實效性 。是故 ,本研究所提出之電子化文件內容萃取技術乃架構於「關
鍵詞彙相關性解析模式」與 「關鍵詞彙擷取模式」兩項模式之上 。在關鍵詞彙相
關性解析模式中 ,除考量關鍵詞彙出現頻率外 ,亦納入詞彙發生位置之相關性解
析 。在以詞彙發生位置為基之相關性解析法則中 ,乃執行(1)擷取關鍵字位置 、(2)
尋求詞彙間組合關係、(3)相關性計算、(4)相關係數整合等四大步驟,以求得更
周密之關鍵詞彙相關性 ,供後續關鍵字擷取與資訊檢索應
您可能关注的文档
最近下载
- 2025年山东药品食品职业学院高职单招综合素质考试参考题库及答案解析.docx VIP
- (高清版)DB4409∕T 24-2021 《奇楠沉香扦插技术规程》.docx VIP
- 2026年广东中考生物命题趋势预测试卷(附答案解析).docx VIP
- 北京市2025年高考:《英语》考试真题(含答案).pdf VIP
- 世界金融史:泡沫、战争与股票市场([日]板谷敏彦 著).pdf VIP
- 2025年北京央教湘岳假期寒假作业七年级英语人教版答案.pdf VIP
- 明月海藻实习素材.doc VIP
- 死因监测工作例会的制度.doc VIP
- 《墙面石材干挂(背栓式)施工工艺》.docx VIP
- 老年人营养不良的评估(老年人能力评估课件).ppt
原创力文档

文档评论(0)