应用直方图均化於统计式未知词萃取之研究HistogramEqualization.PDF

应用直方图均化於统计式未知词萃取之研究HistogramEqualization.PDF

应用直方图均化於统计式未知词萃取之研究HistogramEqualization

應用直方圖均化於統計式未知詞萃取之研究 Histogram Equalization for Statistical Unknown Word Extraction 陳弈璁 Yi-Cong Chen 國立台灣科技大學資訊管理學系 Department of Information Management National Taiwan University of Science and Technology m9709104@ntust.edu.tw 林伯慎 Bor-Shen Lin 國立台灣科技大學資訊管理學系 Department of Information Management National Taiwan University of Science and Technology bslin@cs.ntust.edu.tw 摘要 隨著人們的生活方式的演變以及資訊普及的加速,新事物、新觀念不斷的產生 ,新的詞 彙自然而然地快速增加。因此,學習與辨識新詞彙是一個自然語言處理系統能與時俱進 的重要能力。本論文利用統計式的機器學習方法,結合不同特性的統計特徵訓練出一個 詞彙的分類器,進行詞彙的萃取與驗證。然而,自然語言處理技術的應用範疇非常廣,用 來訓練或測詴的語料庫其領域或大小也都不盡相同,這使得以統計為基礎的方法,會產 生訓練集與測詴集的特徵分佈不匹配的問題。我們提出應用直方圖均化(Histogram Equalization )將描述長度增益(Description Length Gain )特徵值進行正規化,讓測詴集 與訓練集的特徵值分佈能互相匹配,解決語料庫大小或領域不同所造成特徵值範圍變動 及分佈差異的問題。這使得本論文的統計式詞彙萃取方法更具有一般性,可以適用於不 同領域的詞彙萃取。 我們使用SIGHAN2的繁體語料庫進行測詴,在結合四種統計特徵 ,並且經過特徵值分 佈正規化後,會有最佳的詞彙驗證效能。對於中研院資訊所組庫小組及香港城市大學所 提供的語料庫,F-measure分別可以達到68.43%和71.40% 。我們將此詞彙萃取方法應用 於萃取新穎領域的未知詞時,發現本論文方法可以萃取出具有統計特性顯著但較難透過 語意結構資訊萃取出來的未知詞,例如〆「海角7號」、「金融海嘯」等專有名詞 。但 是相對地 ,因為並未使用語意結構規則,於人名、地方名或組織名的未知詞萃取,則顯 得能力較為不足。我們並觀察到,本論文的統計萃取方法與上述兩套斷詞系統所萃取的 未知詞之間具有良好的互補性,適當地將這些方法結合將可以達到截長補短的效果 。 Abstract With the evolution of human lives and the accelerated spread of information, new things and concepts are generated quickly, and new words emerge every day. It is therefore important for natural language processing systems to identify new words. This paper used the scheme for Chinese word extraction based on machine learning approaches to combining various statistical features. Due to the broad areas for the natural language applications, however, it is quite probable that the mismatch of statis

文档评论(0)

1亿VIP精品文档

相关文档