基於特制隐藏式马可夫模型之中文断词研究.pdfVIP

下载本文档

17
0
约3.04万字
约 21页
2017-09-15 发布于重庆
举报
版权申诉

基於特制隐藏式马可夫模型之中文断词研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基於特製隱藏式馬可夫模型之中文斷詞研究 Chinese Word Segmentation using Specialized HMM 林千翔、張嘉惠國立中央大學資訊工程學系 Email: pshivp@db.csie.ncu.edu.tw, chia@csie.ncu.edu.tw 摘要中文斷詞在中文的自然語言處理上，是個相當基礎且非常重要的工作。近年來的斷詞系統較傾向於機器學習式演算法來解決中文斷詞的問題，但使用傳統的作法，隱藏式馬可夫模型在解決中文斷詞的問題上，無法達到較好的斷詞效能（F-measure 約 80% ），所以許多研究都是使用外部資源或是結合其他的機器學習演算法來幫助斷詞。本研究的目的是使用「特製化」（ specialization ）的概念來提升隱藏式馬可夫模型的準確率，我們的作法是給予隱藏式馬可夫模型更多的資訊，在完全不修改模型之訓練及測試過程的前提下，透過兩階段特製化的方式，分別為擴充「觀測符號」，以及擴充「狀態符號」的方式，大大地改善了隱藏式馬可夫模型的斷詞準確性。第一階段中，我們使用長詞優先法，來增加額外的資訊於隱藏式馬可夫模型中，使得模型擁有更多的斷詞資訊做學習。於實驗結果發現，只使用這個最簡單的長詞優先斷詞方法，確實能大幅地提升隱藏式馬可夫模型的效能。而第二階段中，我們則使用詞彙式隱藏式馬可夫模型（ Lexicalized HMM ）的概念，也就是只根據某些特製詞（specialized words ）來做特製化，將狀態做延伸，實驗結果也證明詞彙式隱藏式馬可夫模型可再次提升系統斷詞效能。 1. 緒論緒論緒緒論論中文斷詞在中文的自然語言處理上，是非常重要的前置處理工作。許多中文的自然語言相關的領域，例如：問答系統、自動摘要、文件檢索、機器翻譯、語音辨識 …等，都需要先處理中文斷詞，可見中文斷詞是個相當基礎且非常重要的工作。所謂的「中文斷詞」就是將一連串的中文「字串」轉換成「詞串」的組合。例如：「我昨天去台北」這個中文句子，透過中文斷詞的處理後變成「我／昨天／去／台北」，也就是將｛我、昨、天、去、台、北｝字串轉成｛我、昨天、去、台北｝的詞串組合。傳統上，處理中文斷詞會遇到的問題，大致可歸納為兩點，一是「歧義性」（ambiguity ）問題，二是「未知詞」（unknown word ）問題。歧義性問題即是同一個中文字串，於不同的文章當中，存在不同的斷詞結果，因此容易造成斷詞上的錯誤。歧義型態大致上可以分為兩類：交集型歧義（overlapping ambiguity ）令x, y, z 代表中文字元所組成的字串，若 x 、z 、xy 與 yz皆為辭典中的詞，則 xyz的組合，於不同的文章中，可能會被斷詞成 xy/z或 x/yz 等兩種不同的結果，則xyz稱為「交集型歧義字串」。例如：「不可以」三個中文字元所組成的字串，辭典中的詞含有「不、不可、可以」，「不可以」所組成的字串，在下列句子中，因其上下文的不同而產生不同的斷詞結果：「不／可以／忘記」、「不可／以／營利／為／目的」。組合型歧義（covering ambiguity ）令x, y代表中文字元所組成的字串，若 x 、y 、xy都是辭典中的詞， xy的組合中，可在不同的文章中，分別被斷詞成 xy或 x/y ，因為詞xy是由 x 與 y 等兩個不同的詞所組成，因此xy稱為「組合型歧義字串」。例如：「才能」二個字所組成的字串，辭典中的詞有「才、能、才能」，在下列句子中「才能」組成的字串，將產生不同的斷詞結果：「他／才能／非凡」、「只有／他／才／能／勝任」。另外，「未知詞」則指辭典中未收錄的詞，包含了人名、地名、組織名、人名地名組織名之縮寫、衍生詞、複合詞、數字型態等，由於人類所使用的語言會隨著社會不斷改變，而持續地創造出