- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文词汇语意资料的整合与撷取词汇语意学的观点
中文詞彙語意資料的整合與擷取 :詞彙語意學的觀點
高照明
zmgao@.tw
台灣大學外國語文學系
摘要
本文從詞彙語意學理論的觀點整合知網(Hownet) ﹑現代漢語分類辭典﹑教育部國語辭典等資
源 ,並利用 Wordnet 和漢英辭典 ,擷取上述不同來源的中文詞彙語意訊息 。我們透過整合後
的訊息發展一套系統 ,使用者輸入兩個詞可以找出兩個詞之間的詞彙語意關係包括 (一)同
義關係 (二)反義關係 (三)上下位關係 (四)部件與整體關係 (五)相同事件 (六) 相
同領域(domain) (七)相同語意特徵 (八)相同的語意類別 (九)事件與語意角色 。
關鍵詞 :詞彙語意關係﹑詞彙知識庫﹑知網(Hownet) ﹑義元﹑語意特徵﹑語意角色﹑事件角
色轉換﹑Wordnet ﹑現代漢語分類辭典﹑重編國語辭典修訂本﹑同義詞﹑反義詞﹑上位詞﹑下
位詞﹑全體詞﹑部分詞
一 前言
詞彙語意學的發展與資訊科學及人工智慧有相當密切的關係。六零年代語言學家Fillmore
(Fillmore 1968)提出語意角色的理論架構格理論(case theory)對於語意學及句法學產生深遠的
影響 ,同一時期Wilks (Wilks 1968) 從人工智能的角度研究語意知識的表達。七零年代Shank
(Shank 1975)提出腳本理論將詞彙知識與常識具體化程序化 ,作為自然語言理解的基礎。而
Sowa 等人(Sowa 1984)則從事 conceptual graph 的研究。七零年代末期 John Sinclair (參考
Sinclair 1987) 首創以語料庫及計算機研究詞義和搭配語並編纂辭典 (Collins Cobuild English
Dictionary )。八零年代,利用機讀辭典研究語法與詞彙語意開始興起 ,其中最多研究人員使
用的資源是 Longman Dictionary of Contemporary English(LDOCE) (參考Boguraev and Briscoe
(eds) 1989) 。九零年代隨著英國國家語料庫(http://www.natcorp.ox.ac.uk/) 及相關檢索軟體
(SARA, Xaira) 的完成 ,研究人員開始有龐大的語料庫及檢索工具研究詞彙語意 。而Wordnet
計畫(/)推出(semantic concordancer)以Wordnet 詞項的意義標示語料
庫中的詞的詞義,為計算詞彙語意學奠定了深厚的基礎 。近年來越來越多標注詞彙語意訊息
的語料庫出現,如標記論元結構(argument structure )及語意角色訊息的FrameNet 、VerbNet 、
PopNet 。計算詞彙語意學研究的重心轉為利用語料庫及統計演算法 ,例如 Church 首創以互
見訊息(mutual information)和t-score 來擷取搭配語(參考Church and Hanks 1990) Church et al.
(1991) Church et al. (1994) 。Hearst (1992)透過句型擷取上下位詞 。Grefefenstette (1994)以語法
剖析器和統計擷取同義詞。Jones (2002)透過語料庫擷取反義詞。Turney (2006), Girju 等 (2007)
更進一步以統計及機器學習演算法研究詞彙語意關係 ,這與傳統透過詞彙知識庫擷取與判定
詞彙語意關係的方法大異其趣 。以大量語料結合統計或機器學習演算法的優點是不需要詞彙
知識庫即可從語料中擷取一些語意關係 ,缺點是擷取的資料不夠精確與完整必須透過專家來
校對與補充 。本文的目的在於整合現有的各種中文詞彙知識庫 ,並利用這些資料庫截長補短
來擷取最多的語意關係 ,作為未來評估機器學習演算法擷取詞彙語意關係研究的平台 。
詞彙語意關係與語意網(semantic web) 及本體論(ontology) 息息相關 。Tim Berners-Lee
(2000)提出語意網的概念描繪了下一代網際網路的遠景 。語意網的成功仰賴本體論 ,也就是
必須能清楚的表達通用或某一特定領域知識
您可能关注的文档
最近下载
- 家用电器行业市场前景及投资研究报告:小米家电业务复盘.pdf VIP
- 2025中小学学校教材教辅征订管理工作方案.docx VIP
- 城市轨道交通信号常见故障及应急处理.docx VIP
- 2024秋新部编人教版5五年级上册《道德与法治》全册优秀课件.docx VIP
- 幼儿园日管控周排查月调度工作制度.docx VIP
- 《序篇-不忘初心》课件-2023-2024学年高中音乐人音版音乐鉴赏.pptx VIP
- NB_T 20038-2011 核空气和气体处理规范 设计和制造通用要求.pdf VIP
- 新世纪大学英语综合教程第二版第一册教程.pdf VIP
- 危险化学品运输、装卸安全管理制度(5页).doc VIP
- 融通集团社招笔试题型.pdf
文档评论(0)