- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基於统计方法之中文搭配词自动撷取
基於統計方法之中文搭配詞自動擷取
張翠芸、柯淑津
東吳大學資訊科學系
Department of Computer Information Science
SooChow University
ms9513@sun.cis.scu.edu.tw
ksj@cis.scu.edu.tw
摘要
本研究採取以下四個步驟擷取出雙連詞、三連詞、四連詞之詞彙或詞性組合之搭配詞。
首先採用 Smadja’s Xtract 的平均數及變異數的方法,擷取具有變動距離模式所共同出現
的詞彙或詞性的組合,接著使用搭配詞顯著性的衡量方法:相互資訊值及 T 檢定值。
通過以上檢驗的候選搭配詞,經由對照中央研究院詞義標示語料庫之目標詞的結果,在
同樣的跨距下,若同為一個詞義者,則我們以此搭配詞作為詞義標示知識。並且,本研
究將產出之搭配資訊應用於詞義自動標示處理,達到 20.07%的應用率及 90.83%的正確
率。
Abstract
We take the four following steps to extract collocations made of combinations of 2, 3, 4
words and/or part of speech, respectively. First, we use “Smadja’s Xtract” to extract the
co-occurrence combinations of words and/or part of speech of varying distance by
computing means and variances. Second, we evaluate the significances of collocation
candidates by 2 metrics: mutual information and t-test value. At last, we compare the head
words of tagged word sense corpus made by Academic Sinica with the collocation candidates.
If in the same distance, the head words of collocation candidates match the ones made by
Academic Sinica, we say they are collocations. In addition, we apply the collocation
information produced from this research to word sense disambiguation. It reaches application
rate of 20.07% and precision rate of 90.83%.
關鍵詞:中文搭配詞,相互資訊值,自然語言處理,統計方法,T 檢定值,詞義辨識
Keywords: Chinese collocation, mutual information, natural language processing, statistical
method, t-test, word sense disambiguation.
一、簡介
不同民族的歷史文化知識背景以及人們的思考邏輯模式不同,看待同樣的人事物、同樣
的行為情境過程,在語言的描述上也會有所不同。每個地區的語言都有其習慣性的用
法,而所謂的搭配詞 (collocation) 廣義而言,就是指兩個或多個詞依照語言習慣性結
合在一起表示某種特殊意涵的詞彙現象。搭配詞在不同的研究領域上各有不同的解讀
您可能关注的文档
- 图文转换语言运用.ppt
- 在变铅青链霉菌基因组中定域克隆外源DNA的置换性载体及通过反选择获得重组体的模式方法.pdf
- 国际健康素养研究演进路径研究热点与前沿可视化分析.pdf
- 在理想与现实之间对我国民事送达制度改革的再思考.pdf
- 国医杂志访谈伯乐常有,而千里马不常有——民营医院招贤纳士之苦与乐.pdf
- 在长方体上截正方体.ppt
- 在虚拟机上安装Fedora7及vmwaretools的方法.pdf
- 在硅谷最大的科技狂欢节,大公司们都在做什么?.pdf
- 地税安装问题.doc
- 地源热泵大讲堂3.pdf
- 2023年电大市场营销学形成性考核册原题及答案.pdf
- 2023年天津小升初政策分析小六家长不要输在不懂上.pdf
- 2023-2024学年全国小学六年级下英语湘鲁版(三起)同步练习(含解析).pdf
- 2023年中考地理训练专题04 陆地和海洋(含答案及解析).pdf
- 2023-2024学年初中语文部编版八年级下第二单元单元测试(含答案解析).pdf
- 2023年山东省济南市普通高校高职单招职业技能二模测试卷(含答案).pdf
- 15道易错题解析.pdf
- 铁路工程实习报告(精选五篇).pdf
- 2022-2023年土地登记代理人《土地登记相关法律知识》预测试题22(答案解析).pdf
- 铁路安全风险管理知识(精选5篇).pdf
文档评论(0)