基於特制隐藏式马可夫模型之中文断词研究.pdfVIP

基於特制隐藏式马可夫模型之中文断词研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基於特製隱藏式馬可夫模型之中文斷詞研究 Chinese Word Segmentation using Specialized HMM 林千翔 、張嘉惠 國立中央大學資訊工程學系 Email: pshivp@db.csie.ncu.edu.tw, chia@csie.ncu.edu.tw 摘要 中文斷詞在中文的自然語言處理上,是個相當基礎且非常重要的工作。近年 來的斷詞系統較傾向於機器學習式演算法來解決中文斷詞的問題,但使用傳統的 作法,隱藏式馬可夫模型在解決中文斷詞的問題上,無法達到較好的斷詞效能 (F-measure 約 80% ),所以許多研究都是使用外部資源或是結合其他的機器學習 演算法來幫助斷詞。本研究的目的是使用「特製化」( specialization )的概念來提 升隱藏式馬可夫模型的準確率,我們的作法是給予隱藏式馬可夫模型更多的資 訊,在完全不修改模型之訓練及測試過程的前提下,透過兩階段特製化的方式, 分別為擴充「觀測符號」,以及擴充「狀態符號」的方式,大大地改善了隱藏式 馬可夫模型的斷詞準確性。第一階段中,我們使用長詞優先法,來增加額外的資 訊於隱藏式馬可夫模型中,使得模型擁有更多的斷詞資訊做學習。於實驗結果發 現,只使用這個最簡單的長詞優先斷詞方法,確實能大幅地提升隱藏式馬可夫模 型的效能。而第二階段中,我們則使用詞彙式隱藏式馬可夫模型( Lexicalized HMM )的概念,也就是只根據某些特製詞(specialized words )來做特製化,將 狀態做延伸,實驗結果也證明詞彙式隱藏式馬可夫模型可再次提升系統斷詞效 能。 1. 緒論緒論 緒緒論論 中文斷詞在中文的自然語言處理上,是非常重要的前置處理工作。許多中文 的自然語言相關的領域,例如:問答系統、自動摘要、文件檢索、機器翻譯、語 音辨識 …等,都需要先處理中文斷詞,可見中文斷詞是個相當基礎且非常重要的 工作。 所謂的「中文斷詞」就是將一連串的中文「字串」轉換成「詞串」的組合。 例如:「我昨天去台北」這個中文句子,透過中文斷詞的處理後變成「我/昨天 /去/台北」,也就是將{我、昨、天、去、台、北}字串轉成{我、昨天、去、 台北}的詞串組合。傳統上,處理中文斷詞會遇到的問題,大致可歸納為兩點, 一是「歧義性」(ambiguity )問題,二是「未知詞」(unknown word )問題。歧義 性問題即是同一個中文字串,於不同的文章當中,存在不同的斷詞結果,因此容 易造成斷詞上的錯誤。歧義型態大致上可以分為兩類: 交集型歧義(overlapping ambiguity ) 令x, y, z 代表中文字元所組成的字串,若 x 、z 、xy 與 yz皆為辭典中的詞, 則 xyz的組合,於不同的文章中,可能會被斷詞成 xy/z或 x/yz 等兩種不同 的結果 ,則xyz稱為「交集型歧義字串」。例如:「不可以」三個中文字元 所組成的字串,辭典中的詞 含有「不、不可、可以」,「不可以」所組成的 字串,在下列句子中,因其上下文的不同而產生不同的斷詞結果:「不/可 以/忘記」、「不可/以/營利/為/目的」。 組合型歧義(covering ambiguity ) 令x, y代表中文字元所組成的字串,若 x 、y 、xy都是辭典中的詞, xy的組 合中,可在不同的文章中,分別被斷詞成 xy或 x/y ,因為詞xy是由 x 與 y 等兩個不同的詞所組成,因此xy稱為「組合型歧義字串」。例如:「才能」 二個字所組成的字串,辭典中的詞有「才、能、才能」,在下列句子中「才 能」組成的字串,將產生不同的斷詞結果:「他/才能/非凡」、「只有/他 /才/能/勝任」。 另外,「未知詞」則指辭典中未收錄的詞,包含了人名、地名、組織名、人 名地名組織名之縮寫、衍生詞、複合詞、數字型態等,由於人類所使用的語言會 隨著社會不斷改變,而持續地創造出

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档