數位文字知識探勘-- 以中文索引典之建構及應用為例 文字知識探勘簡介 索引典建構:緣由與目的 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 知識探勘 知識探勘(knowledge discovery, KD) 擷取隱晦、有用、未被發掘、有潛在價值的規則、資訊或知識的一種過程 實務上,運用資訊組織與分析等探勘技術,與使用者互動,反覆探索,發現訊息或規律,人工解讀結果,轉換規律訊息成資訊或知識。 資料探勘(data mining, DM) 處理結構化(structured)資料,即資料間有共同欄位 文字探勘(text mining, TM) 處理非結構化資料,資料常為自由文字 知識探勘步驟與技術 步驟: 資料蒐集 資料清理 資料轉換 探勘技術運用 結果呈現與解讀 技術: 關聯分析(association) 分類(classification) 歸類(clustering) 概略化(generation) 預測(prediction) 序列分析(sequence analysis) 特徵詞彙擷取 索引與檢索 摘要(summarization) 資訊組織與主題分析 資訊組織與主題分析的技術內容 資訊檢索 權威控制 詞彙關聯 內容摘要 主題歸類 文件分類 圖書館學較重視標準化的作業與架構 資訊科技較重視自動化技術的運用 索引典自動建構:前言 檢索失敗的
原创力文档

文档评论(0)