中文断词将军诶.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文斷詞 詞 在自然語言處理上,最基本的處理單位通常是詞,這裡的詞指的是語言學家所定義的「能夠獨立運用,具有完整語意的最小語言成分」。 在英文裡,每個單字(word)就可成詞,具有自己的意義,且每個單字之間都以明顯的空白為分隔,因此沒有斷詞的困擾。 在中文裡,詞和詞之間書寫時,並不會以空白區分,因此將正確的詞切分出來,就成為自然語言處理的最基礎工作。 斷詞 對於輸入一個N 個連續字的字串(C1C2C3……Cn),斷詞系統的目的就在於找出正確的詞串(W1W2W3……Wm),這裏Wi 可以是單字詞也可以是多字詞,例如輸入的字串為 ”我今天上午到台灣大學聽演講”, 必須產生正確的詞串為 ”我 今天 上午 到 台灣大學 聽 演講”。 斷詞 斷詞所需面對的問題大致上可分為三類 詞的標準不同 歧義性 未知詞 詞的標準不同 台灣的計算語言學會在1995 年提出資訊處理用中文分詞規範,依照信達雅三層級規劃詞的標準,定義「詞是一個具有獨立意義,且具有固定語法功能的字串」。 大陸在1992 年制定出國家標準(GB/T13715-92)的「信息處理用現代漢語分詞規範」,簡稱「分詞規範」。其制定是遵循幾個原則,科學性,嚴謹性,穩定性,通用性,實用性,及完整性等。對於詞的定義基本上採用「詞是最小的獨立運用的語言單位」 由於這兩個標準對於詞的定義不大相同,兩岸的辭彙用法也不大相同 歧義性 一個中文句子中,可能存在不只一種的斷詞結果,歧義型態大致上可以分為兩類 交集型歧義 組合型型歧義 交集型歧義 例如在欄位ABC中(A,B,C 分別代表有一個或多個中文字組成的字串),而A、AB、BC、C 分別都是詞表中的詞,則稱ABC 該欄位為交集型歧義欄位。 如:“中國人”三個字,可對應至詞表中的詞有「中、中國、國人、人」,將產生 「中 國人」 、「中國 人」兩種切分結果。 組合型型歧義 若在欄位ABC 中, A、B、AB 分別都是詞表中的詞,則稱該欄位為組合型歧義欄位。 如:“才能”二個字,可對應至詞表中的詞有「才、能、才能」,下列句子正確的斷詞為「他 才能 非凡」,「只有 他 才 能 勝任」。 歧義性 中文斷詞最大的問題就在於解歧義性,必須找出最可能最正確的斷詞結果。過去幾年有大量的論文提出不同的演算法,大致上可以分有長詞優先,法則式,經驗式,機率式模型等。但是由於詞的標準不同,資源也不同,沒有一個通用、權威的斷詞規範來衡量 未知詞 在這裡的未知詞,指的是沒有收入在系統辭典裡,但是卻又必須正確切分出來的詞,例如人名,地名,組織名,數字年份,人名姓名簡稱,複合詞等等,往往這些未知詞會是後續應用程式,如問答系統,資訊檢索系統等,關切的重點所在。 社會在變遷,人類語言不斷在發展和變化,新詞會層出不窮的出現,同時也因為 詞的衍生現象非常普遍,沒有必要把所有的衍生詞都收入辭典中,因此一般皆要求斷詞系統需具有一定的未知詞識別能力,方可提高斷詞的正確性 斷詞解歧義的方法 結構性的方式(structural approach) 統計性的方式(statistical approach) 結構性斷詞法 結構性斷詞法通常採用一些經驗法則(heuristic rules)作為選詞的標準,常見的經驗法則有「長詞優於短詞」、「與左邊詞的結合優於與右邊詞的結合」等。 以「他馬上來」為例子,因為「馬上」兩個字比「馬」一個字長,而「上」雖然可與左邊的「馬」或右邊的「來」結合,但以「與左邊結合優先」,所以「他馬上來」可斷為「他 馬上 來」。 「以這名記者會說國語」句子,依照上述的經驗法則斷詞的結果是「這 名 記者會 說 國語」 機械斷詞法 他是依照一定的法則將待分析的句子與詞表中的詞進行匹配,若在詞表中找到某個字串,則匹配成功。 目前根據掃描方式不同區分為正向匹配和逆向匹配;按照詞的長度優先匹配區分為最大(最長)匹配和最小(最短)匹配。目前常用的方法為正向最大匹配、逆向最大匹配及最少切分(使每一句子切出的詞數最小)三種,還可以將上述各種方法相互組合,例如將正向最大匹配和逆向最大匹配結合起來購成雙向匹配法。 統計式斷詞法 范長康等(1988)使用影像處理的鬆弛法來作中文斷詞,引入機率模式,直接利用計算各詞出現頻率來反覆求出各詞的機率分布。 Sporat 和Shih(1991)經由大量語料庫,統計出句子內字和字之間的相鄰機率,首先找出相鄰機率最大的兩個相鄰字,將之視為詞,再繼續重複步驟處理句中的其他部分,這種方式只能找出雙字詞和單字詞,而且正確率不高。 張俊盛(1992)提出限制式滿足和機率最佳化的中文斷詞方法,對於句子中每個字之間設定變數,斷或不斷,這種方法不限定處理的詞長,速

文档评论(0)

勤能补拙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档