- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基本名词短语BaseNP
台語文語料處理讀書報告 May 31st, 2007 第五章語料庫方法在計算語言學中的應用第二節 漢語名詞短語識別研究基本名詞短語- BaseNP本節中,問題的核心在於如何從文本中正確地識別出“基本名詞短語 (BaseNP)” * Church把英語的基本名詞短語定義為 : “非嵌套的名詞短語”1.漢語BaseNP的定義 * 越軍依限定性定語的概念,提出漢語基本名詞短語 的形式化定義: BaseNP -baseNP+baseNP BaseNP -baseNP+名詞/名動詞 BaseNP -限定性定語+baseNP BaseNP -限定性定語+名詞/名動詞 (限定性定語-形容詞,動詞,數量詞,處所詞,….) 2.BaseNP的句法組成模板 建立在詞類及短語標記基礎上的上下文無關規則, 叫作句法組成模板. 只是構成BaseNP的必要條件,而非充分心要條件 例如: IBM 公司宣布…符合模板 : BaseNP -N+V,但是 是非語 法形式 3.BaseNP的句法組成模板的抽取 模板的抽取工作分兩步進行: a. 建立人工標注BaseNP的語料庫 b. 依據語料庫的統計信息,對初始模板集合 進行篩選,形成基本組成模板集合 訓練語料庫中,統計得到407個baseNP句法組成模板, 出現次數超過5次的有64個,含蓋語料庫98.6%的 baseNP,稱為基本模板. 例: VN2+NG2(双音節名動詞+双音節普通名詞) 教育理論,調查報告,… 4.識別BaseNP的上下文有關規則 baseNP識別模型示意圖 第三節 基于結構詞義空間的漢語詞義排歧模型詞義排歧,指根據一個多義詞在文本中出現的上下文環境來确定其詞義代碼. 1.同義詞詞林簡介 這部義類辭典把詞義分為大,中,小類三級 例如: 覺悟的義類代碼為”Ga15” 詞林中,多義詞按其詞義被賦以不同的義類代碼 例如: “材料”在詞林中有三個義項.. (1)可以直接造成成品的東西 (2)提供著作的內容的事物或可供參考的事實 (3)比喻適于做某種事情的人材 它們對應的義類代碼分別為”Ba05,Dk17,Al03 ”對材料一詞的詞義排歧過程,就是根據該詞出現的上下文給它一個相對應的義類代碼.為數不少的多義詞可以直接根據它們的詞性來辨識詞義, 2.詞林的向量空間表示 一個詞的詞義只能在它的應用中得以辨識,對其每次出現的上下文加以考察,就可以獲得該詞義同其他詞的搭配關係. 由于一個詞的詞義可以用与其同現的一組搭配詞來描述,因此在數學上可以用一個多維向量來表示一個特定的詞義.這樣的向量定義為詞義向量.具体來說,一個詞義向量由多個分量組成,其中每個分量代表与這個詞義同現的一個搭配實詞,並成為整個詞義空間的一維. 任意一個搭配實詞xi与一個特定詞義s的同現概率P(s,xi)定義為該實詞在詞義向量中的權值.所以,一個詞義向量V的每個分量Vxi=P(s,xi).因此,詞義向量實質上是一個多維的實值向量.對詞義的描述,以如下兩個基本假設為依據,1.詞義相似,則它們的上下文也相似,詞義向量距離 相近.2.意義相同或相近的詞,在詞義空間上為一個密集的 點陣.從語料庫中,執行向量距離之聚類實驗發現結果,與詞林劃分之同義詞集十分接近. 3.基于結構詞義空間的詞義排歧模型 任意一個同義詞集中總有一些詞是單義詞,尋找這些單義詞 在語料庫中的同現實詞並構造它們的詞義向量,可以自動完成. 4.結論 *采用基于結構詞義空間的詞義排歧模型,可以免 除繁重詞義標注及排歧知識庫. *語義類向量層次愈低(小類及次小類)正確率愈高 *詞義排歧結果的优劣与多義詞本身的語法特性 有關 *多義詞所屬各語義類之間的距離愈小,詞義排歧 結果愈差. The EndThank You * 學生 : 沈中琛 , 輸入文本 基本組成模板 BaseNP初始標注 轉換規則空間 正確答案 獲取的轉換 規則有序集 生成新的轉換規則 並用評價函數打分 選擇得分最高的規則 本次標注結果 應用當前規則 刷新上次標注結果 大類編碼G表示”心理活動” 中類編碼Ga表示”心理狀態” 小類編碼Ga15 在詞林中的 內容顯示為: Ga15
您可能关注的文档
- 基于问题表征理论的试题质量分析-泉州第一中学网络应用平台.DOC
- 基因工程试验试验质粒DNA的提取分离和纯化试剂ALB液体.DOC
- 基因诊断-突破生命检测新领域中小公司研究.PDF
- 基数排序的思想-数据结构课程教学网站-绍兴文理学院.PPT
- 基本信息课题八年级下册曲坛音韵第一课时江南好作者.DOC
- 基础医学教学试验中心10万元以上的仪器设备列表.DOC
- 填报志愿方法及时间.DOC
- 增加冲量项.PPT
- 增速下移导致供应链压力变大2014年智能手机的出货量已经开始.PPT
- 处理ゼミ上水道施设.PPT
- 社区资源在小学教育中的有效利用教学研究课题报告.docx
- 教学评价体系改革对教师工作的启示教学研究课题报告.docx
- 高中化学中模型教学法的应用研究教学研究课题报告.docx
- 高中生心理素质培养与学业压力的关系教学研究课题报告.docx
- 小学数学问题解决能力的培养探索教学研究课题报告.docx
- 小学英语课外阅读活动有效性研究教学研究课题报告.docx
- 大数据在教学评估中的应用与展望教学研究课题报告.docx
- 小学数学课堂中积极性激发的方法探索教学研究开题报告教学研究课题报告.docx
- 初中生物课程资源开发与利用的实践研究教学研究课题报告.docx
- 文理结合的课程设置对学生发展的影响教学研究课题报告.docx
文档评论(0)