中文断词将军诶.pptVIP

下载本文档

0
0
约3.29千字
约 20页
2019-04-04 发布于湖北
举报
版权申诉

中文断词将军诶.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文斷詞詞在自然語言處理上，最基本的處理單位通常是詞，這裡的詞指的是語言學家所定義的「能夠獨立運用，具有完整語意的最小語言成分」。在英文裡，每個單字(word)就可成詞，具有自己的意義，且每個單字之間都以明顯的空白為分隔，因此沒有斷詞的困擾。在中文裡，詞和詞之間書寫時，並不會以空白區分，因此將正確的詞切分出來，就成為自然語言處理的最基礎工作。斷詞對於輸入一個N 個連續字的字串（C1C2C3……Cn），斷詞系統的目的就在於找出正確的詞串（W1W2W3……Wm），這裏Wi 可以是單字詞也可以是多字詞，例如輸入的字串為 ”我今天上午到台灣大學聽演講”，必須產生正確的詞串為 ”我今天上午到台灣大學聽演講”。斷詞斷詞所需面對的問題大致上可分為三類詞的標準不同歧義性未知詞詞的標準不同台灣的計算語言學會在1995 年提出資訊處理用中文分詞規範，依照信達雅三層級規劃詞的標準，定義「詞是一個具有獨立意義，且具有固定語法功能的字串」。大陸在1992 年制定出國家標準（GB/T13715-92）的「信息處理用現代漢語分詞規範」，簡稱「分詞規範」。其制定是遵循幾個原則，科學性，嚴謹性，穩定性，通用性，實用性，及完整性等。對於詞的定義基本上採用「詞是最小的獨立運用的語言單位」由於這兩個標準對於詞的定義不大相同，兩岸的辭彙用法也不大相同歧義性一個中文句子中，可能存在不只一種的斷詞結果，歧義型態大致上可以分為兩類交集型歧義組合型型歧義交集型歧義例如在欄位ABC中(A,B,C 分別代表有一個或多個中文字組成的字串)，而A、AB、BC、C 分別都是詞表中的詞，則稱ABC 該欄位為交集型歧義欄位。如：“中國人”三個字，可對應至詞表中的詞有「中、中國、國人、人」，將產生「中國人」、「中國人」兩種切分結果。組合型型歧義若在欄位ABC 中， A、B、AB 分別都是詞表中的詞，則稱該欄位為組合型歧義欄位。如：“才能”二個字，可對應至詞表中的詞有「才、能、才能」，下列句子正確的斷詞為「他才能非凡」，「只有他才能勝任」。歧義性中文斷詞最大的問題就在於解歧義性，必須找出最可能最正確的斷詞結果。過去幾年有大量的論文提出不同的演算法，大致上可以分有長詞優先，法則式，經驗式，機率式模型等。但是由於詞的標準不同，資源也不同，沒有一個通用、權威的斷詞規範來衡量未知詞在這裡的未知詞，指的是沒有收入在系統辭典裡，但是卻又必須正確切分出來的詞，例如人名，地名，組織名，數字年份，人名姓名簡稱，複合詞等等，往往這些未知詞會是後續應用程式，如問答系統，資訊檢索系統等，關切的重點所在。社會在變遷，人類語言不斷在發展和變化，新詞會層出不窮的出現，同時也因為詞的衍生現象非常普遍，沒有必要把所有的衍生詞都收入辭典中，因此一般皆要求斷詞系統需具有一定的未知詞識別能力，方可提高斷詞的正確性斷詞解歧義的方法結構性的方式(structural approach) 統計性的方式(statistical approach) 結構性斷詞法結構性斷詞法通常採用一些經驗法則(heuristic rules)作為選詞的標準，常見的經驗法則有「長詞優於短詞」、「與左邊詞的結合優於與右邊詞的結合」等。以「他馬上來」為例子，因為「馬上」兩個字比「馬」一個字長，而「上」雖然可與左邊的「馬」或右邊的「來」結合，但以「與左邊結合優先」，所以「他馬上來」可斷為「他馬上來」。「以這名記者會說國語」句子，依照上述的經驗法則斷詞的結果是「這名記者會說國語」機械斷詞法他是依照一定的法則將待分析的句子與詞表中的詞進行匹配，若在詞表中找到某個字串，則匹配成功。目前根據掃描方式不同區分為正向匹配和逆向匹配；按照詞的長度優先匹配區分為最大(最長)匹配和最小(最短)匹配。目前常用的方法為正向最大匹配、逆向最大匹配及最少切分(使每一句子切出的詞數最小)三種，還可以將上述各種方法相互組合，例如將正向最大匹配和逆向最大匹配結合起來購成雙向匹配法。統計式斷詞法范長康等（1988）使用影像處理的鬆弛法來作中文斷詞，引入機率模式，直接利用計算各詞出現頻率來反覆求出各詞的機率分布。 Sporat 和Shih（1991）經由大量語料庫，統計出句子內字和字之間的相鄰機率，首先找出相鄰機率最大的兩個相鄰字，將之視為詞，再繼續重複步驟處理句中的其他部分，這種方式只能找出雙字詞和單字詞，而且正確率不高。張俊盛（1992）提出限制式滿足和機率最佳化的中文斷詞方法，對於句子中每個字之間設定變數，斷或不斷，這種方法不限定處理的詞長，速