基本名词短语BaseNP.PPT

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基本名词短语BaseNP

台語文語料處理 讀書報告 May 31st, 2007 第五章 語料庫方法在計算語言學中的應用 第二節 漢語名詞短語識別研究 基本名詞短語- BaseNP 本節中,問題的核心在於如何從文本中正確地識別出 “基本名詞短語 (BaseNP)” * Church把英語的基本名詞短語定義為 : “非嵌套的名詞短語” 1.漢語BaseNP的定義 * 越軍依限定性定語的概念,提出漢語基本名詞短語 的形式化定義: BaseNP -baseNP+baseNP BaseNP -baseNP+名詞/名動詞 BaseNP -限定性定語+baseNP BaseNP -限定性定語+名詞/名動詞 (限定性定語-形容詞,動詞,數量詞,處所詞,….) 2.BaseNP的句法組成模板 建立在詞類及短語標記基礎上的上下文無關規則, 叫作句法組成模板. 只是構成BaseNP的必要條件,而非充分心要條件 例如: IBM 公司宣布…符合模板 : BaseNP -N+V,但是 是非語 法形式 3.BaseNP的句法組成模板的抽取 模板的抽取工作分兩步進行: a. 建立人工標注BaseNP的語料庫 b. 依據語料庫的統計信息,對初始模板集合 進行篩選,形成基本組成模板集合 訓練語料庫中,統計得到407個baseNP句法組成模板, 出現次數超過5次的有64個,含蓋語料庫98.6%的 baseNP,稱為基本模板. 例: VN2+NG2(双音節名動詞+双音節普通名詞) 教育理論,調查報告,… 4.識別BaseNP的上下文有關規則 baseNP識別模型示意圖 第三節 基于結構詞義空間的漢語詞義排歧模型 詞義排歧,指根據一個多義詞在文本中出現的上下文環境來确定其詞義代碼. 1.同義詞詞林簡介 這部義類辭典把詞義分為大,中,小類三級 例如: 覺悟的義類代碼為”Ga15” 詞林中,多義詞按其詞義被賦以不同的義類代碼 例如: “材料”在詞林中有三個義項.. (1)可以直接造成成品的東西 (2)提供著作的內容的事物或可供參考的事實 (3)比喻適于做某種事情的人材 它們對應的義類代碼分別為”Ba05,Dk17,Al03 ” 對材料一詞的詞義排歧過程,就是根據該詞出現的上下文 給它一個相對應的義類代碼. 為數不少的多義詞可以直接根據它們的詞性來辨識詞義, 2.詞林的向量空間表示 一個詞的詞義只能在它的應用中得以辨識,對其每次出現的上下文加以考察,就可以獲得該詞義同其他詞的搭配關係. 由于一個詞的詞義可以用与其同現的一組搭配詞來描述,因此在數學上可以用一個多維向量來表示一個特定的詞義. 這樣的向量定義為詞義向量. 具体來說,一個詞義向量由多個分量組成,其中每個分量代表与這個詞義同現的一個搭配實詞,並成為整個詞義空間的一維. 任意一個搭配實詞xi与一個特定詞義s的同現概率P(s,xi)定義為該實詞在詞義向量中的權值. 所以,一個詞義向量V的每個分量Vxi=P(s,xi). 因此,詞義向量實質上是一個多維的實值向量. 對詞義的描述,以如下兩個基本假設為依據, 1.詞義相似,則它們的上下文也相似,詞義向量距離 相近. 2.意義相同或相近的詞,在詞義空間上為一個密集的 點陣. 從語料庫中,執行向量距離之聚類實驗發現結果,與詞林劃分之同義詞集十分接近. 3.基于結構詞義空間的詞義排歧模型 任意一個同義詞集中總有一些詞是單義詞,尋找這些單義詞 在語料庫中的同現實詞並構造它們的詞義向量,可以自動完成. 4.結論 *采用基于結構詞義空間的詞義排歧模型,可以免 除繁重詞義標注及排歧知識庫. *語義類向量層次愈低(小類及次小類)正確率愈高 *詞義排歧結果的优劣与多義詞本身的語法特性 有關 *多義詞所屬各語義類之間的距離愈小,詞義排歧 結果愈差. The End Thank You * 學生 : 沈中琛 , 輸入文本 基本組成模板 BaseNP初始標注 轉換規則空間 正確答案 獲取的轉換 規則有序集 生成新的轉換規則 並用評價函數打分 選擇得分最高的規則 本次標注結果 應用當前規則 刷新上次標注結果 大類編碼G表示”心理活動” 中類編碼Ga表示”心理狀態” 小類編碼Ga15 在詞林中的 內容顯示為: Ga15

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档