- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
法規律的抽取及普遍化與精確化的研究
Grammar Extraction, Generalization and Specialization
謝佑明 楊敦淇 陳克健
中央研究院資訊科學研究所
{morris, ydc, kchen}@iis.sinica.edu.tw
摘要. 相較於傳統PCFG的 CNF處理,在本篇論文中,我們提出二元化句法規則產生模式。
並且深入探討其語 法普遍化與精確化方法對中 文剖析器的影響。實驗設計從中研院中 文句
結構樹中依不同的語法抽取原則 ,抽取出不同的語法規律 集合,來剖析 三份測試語料 並評
估結果。觀 結果試著去尋找 出有效的語法普遍化及精確化 方法,得到覆 蓋率高且精確的
句 法規則,以加強中文剖析器的剖析 效能。剖 析精確率的實驗結果,從 基本普遍化語法的
81.45%增加到精確化語法的86.14% 。關鍵詞( 覆蓋率: 、語法歧義 、句法剖 析、 法抽取)
1 緒論
自然語言處理的過程中 ,句法剖析 (parsing)是一個核心處理過程 。在過去研究中 ,剖析器(parser)利
用從樹庫 (treebank)中訓練 出的probabilistic context-free grammar(以下簡稱PCFG) ,對句子剖析是很常用
的 技術 。在英文的部份,因 為有大量的 英文樹庫資 料,利用PCFG剖析 英文句子都會有 不錯的 效果,現
有資料顯 示約可至九成 ,還進一步的做到詞彙化剖析(lexicalized parsing)[6] 。相對於有限的中文句結構
樹庫 ,非詞彙化剖析 (unlexicalized parsing)是 一個研究的開始 。在 本篇論 文中 ,研究 如何從有限的中研
院中文句結構樹庫 (Sinica Treebank)中,抽取最佳的 PCFG ,使得抽取 出的語法 規律有較佳的覆 蓋率
(coverage)及較低的語法 歧義(ambiguity) 。我們同時建 立一個符合 需求的中 文剖析器,從中文句結構樹庫
抽取出不同的語 法規律集合,來剖 析三份測試語 料並評估結果。從這些實驗中 ,觀 結果試著去尋找 出
有效的語 法普遍化(generalization)及精確化 (specialization) 方法,得到覆 蓋率高且精確的句 法規則, 以加
強中文剖 析器的剖析 效能。
在最後章節中 ,我們也 探討到未來進一步的研究與實驗方向 ,如何整合句法與語意訊息讓剖 析器有
效解決句 法結構歧義的問題 。
1.1 中文句結構樹庫簡介
中央研究院中 文句結構樹庫由中研院詞庫 小組於2000年開 始建制 。目前的版 本是 2.0 (9個檔案) ,
其中包含有 38,944句結構樹與240,979詞 。每一個句結構樹都有標註 詞 、細詞 類、語法 結構與語意角
色 訊息 。一般看到的句結構樹是只有標註語 法結構訊息 ,較少有語意角色訊息 。Chen 等[4]提到了語
意角色的 定義與考量 ,想利用單純句法限 制去定義中 文的關係是困難的 。在中文句結構樹中, 特別的是
加上了語意的訊息 ,意指在瞭 到每一個成員 (constituent)與其它成員的關係 。舉例如下 :
他 叫 李四 撿 球.
Ta j iao Li-si j ian qiu.
He asked Lisi to pick up the ball.”
S(agent:NP(Head:Nhaa: )| Head:VF2:叫 |goal:NP(Head:Nba:李四) |theme:VP(Head: VC2:撿 |
goal:NP(Head:Nab:球)))
圖 1. 他叫 李四撿球
圖 1表示完整的中文句結構樹內容 ,標示了詞 組結構(phrase structure)規則及語法與語意關係 。對於
句中標示每個詞的語法詞 類意義 ,詳細定義與例 子說明可 參照[1]的 技術報告 手冊。
1.2 研究方法
二個操作策略: (1)將語 法規律普遍化 及 (2)將語 法規律精確化 。普遍化的 結果是增加語法覆蓋
文档评论(0)