- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蕴涵句型分析於改进中文文字蕴涵识别系统EntailmentAnalysisfor
Proceedings of the Twenty-Fifth Conference on Computational Linguistics and Speech Processing (ROCLING 2013)
蘊涵句型分析於改進中文文字蘊涵識別系統
Entailment Analysis for Improving Chinese Recognizing Textual
Entailment System
楊善順 Shan-Shun Yang, 吳世弘 Shih-Hung Wu*
朝陽科技大學資訊工程系
Department of Computer Science and Information Engineering
Chaoyang University of Technology, Taichung, Taiwan (R.O.C)
{ shwu}@cyut.edu.tw *Contact author
陳良圃Liang-Pu Chen, 邱宏昇 Hung-Sheng Chiu, 楊仁達 Ren-Dar Yang
財團法人資訊工業策進會
Institute for Information Industry, Taipei, Taiwan (R.O.C)
{eit, bbchiu, rdyang } @iii.org.tw
摘要
文字蘊涵是自然語言處理最近興起的研究課題。文字蘊涵識別(Recognizing Textual
Entailment, RTE)的目標為給定一個句子對(T1,T2)系統能夠準確的推斷這兩句子之間的
蘊涵關係 。文字蘊涵識別最基本的方法是藉由句子字面上的資訊例如語意、句法[2]等
等進而推斷句子是否有著蘊涵關係,因此文字蘊涵識別可以應用到其他自然語言處理的
研究中,如問答系統、資訊抽取、資訊檢索、機器翻譯[3][4]等等。
我們所參與公開評測NTCIR10 RITE-2[5]將文字蘊涵的研究分成兩種層面,首先是分兩
類(Binary Class, BC) ,任務的目標是單純判別T1 與T2 之間是否具有蘊涵關係 。但句
子之間蘊涵關係並不能單純以有或沒有這麼簡單就區分開,NTCIR RITE 另外定義多類
(Multi Class, MC)這項任務 ,將句子之間的蘊涵分類為正向、雙向 、矛盾 、與獨立四種
關係。假設這個句子對具有蘊涵關係 ,但有可能兩個句子所包涵的資訊數量不同,造成
我們只能從其中一個句子推論出另一個句子的完整的意思,這樣的情況我們稱為兩個句
子間的蘊涵關係為正向蘊涵。反之兩個句子可以互相推論出另一個句子的含意,這樣的
情況我們就稱為雙向蘊涵關係。假設句子對之間沒有蘊涵關係,我們可以很合理認為兩
個句子所表達的意思不相同,但這並不完全正確的想法。可能兩個句子所包涵的資訊大
致相同只是少部份資訊不同造成句子的意思互相衝突,這樣的情況我們就稱之為矛盾蘊
涵。或是兩個句子本身包涵的資訊毫無關係這樣的情況我們就稱之為獨立蘊涵,藉由將
句子之間的蘊涵關係細分,使得文字蘊涵系識別的研究更有其意義。
在本文中將介紹我們的觀察 NTCIR-10-RITE-2 資料集以及正式評測結果後發現過去系
統[6]的缺陷 ,進而提出如何改進中文文字蘊涵系統。過去處理文字蘊涵大多使用機器
學習的方法 ,這種一視同仁方法處理,對於比較特別的問題往往在處理時會產生誤判。
我們針對於特定類型的問題做處理,增加系統可以處理的問題類型。與過去系統[6]最
大的不同在於加入特殊類型問題處理的子系統,在系統處理完預處理後將可以特殊類型
處理的句子挑選出來使用我們開發的子系統做處理,處理後的結果在與過去使用的機器
學習方法結果,作整合得到最後的結果 。目前我們已經實做了”肯定/否定句” 、”時間資
訊不一致” 、”數字資訊不一致” 、”主/受詞資訊不一致”四個特殊類型問題處理子系統 ,
文档评论(0)