基於统计方法之中文搭配词自动撷取.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基於统计方法之中文搭配词自动撷取

基於統計方法之中文搭配詞自動擷取 張翠芸、柯淑津 東吳大學資訊科學系 Department of Computer Information Science SooChow University ms9513@sun.cis.scu.edu.tw ksj@cis.scu.edu.tw 摘要 本研究採取以下四個步驟擷取出雙連詞、三連詞、四連詞之詞彙或詞性組合之搭配詞。 首先採用 Smadja’s Xtract 的平均數及變異數的方法,擷取具有變動距離模式所共同出現 的詞彙或詞性的組合,接著使用搭配詞顯著性的衡量方法:相互資訊值及 T 檢定值。 通過以上檢驗的候選搭配詞,經由對照中央研究院詞義標示語料庫之目標詞的結果,在 同樣的跨距下,若同為一個詞義者,則我們以此搭配詞作為詞義標示知識。並且,本研 究將產出之搭配資訊應用於詞義自動標示處理,達到 20.07%的應用率及 90.83%的正確 率。 Abstract We take the four following steps to extract collocations made of combinations of 2, 3, 4 words and/or part of speech, respectively. First, we use “Smadja’s Xtract” to extract the co-occurrence combinations of words and/or part of speech of varying distance by computing means and variances. Second, we evaluate the significances of collocation candidates by 2 metrics: mutual information and t-test value. At last, we compare the head words of tagged word sense corpus made by Academic Sinica with the collocation candidates. If in the same distance, the head words of collocation candidates match the ones made by Academic Sinica, we say they are collocations. In addition, we apply the collocation information produced from this research to word sense disambiguation. It reaches application rate of 20.07% and precision rate of 90.83%. 關鍵詞:中文搭配詞,相互資訊值,自然語言處理,統計方法,T 檢定值,詞義辨識 Keywords: Chinese collocation, mutual information, natural language processing, statistical method, t-test, word sense disambiguation. 一、簡介 不同民族的歷史文化知識背景以及人們的思考邏輯模式不同,看待同樣的人事物、同樣 的行為情境過程,在語言的描述上也會有所不同。每個地區的語言都有其習慣性的用 法,而所謂的搭配詞 (collocation) 廣義而言,就是指兩個或多個詞依照語言習慣性結 合在一起表示某種特殊意涵的詞彙現象。搭配詞在不同的研究領域上各有不同的解讀

文档评论(0)

wnqwwy20 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档