应用直方图均化于统计式未知词萃取之研究histogramequalization.pdf

下载文档 降价啦

5
0
约2.58万字
约 15页
2017-09-02 发布于天津
举报
版权申诉
保障服务

应用直方图均化于统计式未知词萃取之研究histogramequalization.pdf

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

应用直方图均化于统计式未知词萃取之研究histogramequalization

應用直方圖均化於統計式未知詞萃取之研究 Histogram Equalization for Statistical Unknown Word Extraction 陳弈璁 Yi-Cong Chen 國立台灣科技大學資訊管理學系 Department of Information Management National Taiwan University of Science and Technology m9709104@ntust.edu.tw 林伯慎 Bor-Shen Lin 國立台灣科技大學資訊管理學系 Department of Information Management National Taiwan University of Science and Technology bslin@cs.ntust.edu.tw 摘要隨著人們的生活方式的演變以及資訊普及的加速，新事物、新觀念不斷的產生，新的詞彙自然而然地快速增加。因此，學習與辨識新詞彙是一個自然語言處理系統能與時俱進的重要能力。本論文利用統計式的機器學習方法，結合不同特性的統計特徵訓練出一個詞彙的分類器，進行詞彙的萃取與驗證。然而，自然語言處理技術的應用範疇非常廣，用來訓練或測詴的語料庫其領域或大小也都不盡相同，這使得以統計為基礎的方法，會產生訓練集與測詴集的特徵分佈不匹配的問題。我們提出應用直方圖均化（Histogram Equalization ）將描述長度增益（Description Length Gain ）特徵值進行正規化，讓測詴集與訓練集的特徵值分佈能互相匹配，解決語料庫大小或領域不同所造成特徵值範圍變動及分佈差異的問題。這使得本論文的統計式詞彙萃取方法更具有一般性，可以適用於不同領域的詞彙萃取。我們使用SIGHAN2的繁體語料庫進行測詴，在結合四種統計特徵，並且經過特徵值分佈正規化後，會有最佳的詞彙驗證效能。對於中研院資訊所組庫小組及香港城市大學所提供的語料庫，F-measure分別可以達到68.43％和71.40% 。我們將此詞彙萃取方法應用於萃取新穎領域的未知詞時，發現本論文方法可以萃取出具有統計特性顯著但較難透過語意結構資訊萃取出來的未知詞，例如〆「海角7號」、「金融海嘯」等專有名詞。但是相對地，因為並未使用語意結構規則，於人名、地方名或組織名的未知詞萃取，則顯得能力較為不足。我們並觀察到，本論文的統計萃取方法與上述兩套斷詞系統所萃取的未知詞之間具有良好的互補性，適當地將這些方法結合將可以達到截長補短的效果。 Abstract With the evolution of human lives and the accelerated spread of information, new things and concepts are generated quickly, and new words emerge every day. It is therefore important for natural language processing systems to identify new words. This paper used the scheme for Chinese word extraction based on machine learning approaches to combining various statistical features. Due to the broad areas for the natural language applications, however, it is quite probable that the mismatch of statis