- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以构词律与相似法为本的中文动词自动分类研究AHybridApproachforAutomaticClassificationofChineseUnknownVerbs.PDF
Computational Linguistics and Chinese Language Processing
Vol. 7, No. 1, February 2002, pp. 1-28 1
The Association for Computational Linguistics and Chinese Language Processing.
以構詞律與相似法為本的中文動詞自動分類研究
A Hybrid Approach for Automatic Classification of
Chinese Unknown Verbs
* + ** *
曾慧馨、劉昭麟 、高照明 、陳克健
摘 要
Abstract
本論文合併兩種方法預測未知動詞的詞類。第一種方法為規則法,即從訓練
語料中歸納出未知動詞組成的構詞規律,分成兩個主要的判斷方式:一、依
照未知動詞的組成的關鍵字決定其分類。二、依照未知動詞的構成組合決定
其分類。
關鍵字法首先將動詞依長度分為四組。第一組為二字詞、三字詞、四字詞、
五字以上的詞彙。在對實際語料的觀察下,發現不同詞長的動詞結構相異,
因此將語料依詞長分組。例如:三字詞可訓練出「好」、「出」兩條規則決
定動詞的詞類,其他長度的未知動詞並沒有這兩條規則,另外「化」規則不
適用於二字動詞。
規則法的第二部分為依照構成組合決定其分類。在觀察未知動詞時,發現有
部分未知動詞的組合很具有規律,我們就將訓練語料中未知動詞的組合做個
歸納,得到九種組合。在十次實驗中,規則法可以處理的未知動詞平均約為
23.19%,猜測正確的比例為91.67%。
二、相似法為利用與未知動詞相似的例子來預測未知動詞的詞類。相似法主
要利用知網與中央研究院中文句結構樹資料庫 1.0 作為語意與詞類相似度測
量的工具。藉由計算未知動詞與已知動詞的相似度來預測未知動詞的詞類,
未知動詞的詞類為與其相似度最高的相似例子的詞類。
*
中央研究院資訊所,曾慧馨E-mail: huihsin@.tw
陳克健E-mail: kchen@.tw
+ 政治大學資訊系E-mail: chaolin@ .tw
**
台灣大學外文系 E-mail: zmgao@.tw
2 曾慧馨等
使用相似法的好處在於相似法所尋找的的相似詞,若相似度高的話,不僅可
以預測詞類分類,同時也可以預測語意與結構分類。當兩個辭彙相似度高時,
表示這兩個辭彙的詞類、語意類與結構必定相似。在十次實驗中,使用相似
法預測動詞的正確率約為71.05%。
規則法的優點在於判斷正確率高,缺點為可處理的未知動詞數量有限;相似
法的優點為可以處理大部分的未知動詞,但正確率不如規則法高。最後,我
們結合這兩種處理方法來預測未知動詞的分類,將兩個方法同時應用在最後
的測試語料中,規則法的正確率為87.25%,而相似法的正確率為65.04%,兩
著者結合後的正確率為70.80%。
In this paper we present a hybrid approach for automatic classification of Chinese
unknown verbs. The first method of the hybrid approach utilizes a set of
morphological rules s
原创力文档


文档评论(0)