网站大量收购独家精品文档,联系QQ:2885784924

语料库的加工与管理技术.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库的加工与管理技术

語料庫的加工與管理技術 members: 威霖 家頌 逐詞索引軟體及其應用: 語料庫的建立之後可以提供不同研究者使用 例如對現實語言現象分析 逐詞索引concordance 提供指定詞在語料庫中出現的相關訊息. 逐詞索引程序 紀錄在語料庫中每次出現的位置, 提供上下文信息- 逐詞索引文件(concordance file) ? 要先為每個詞建立一個索引, 紀錄出現位置 之後在分類排列, 按字母順序 ? 關鍵詞居中索引(Key Word in Context)-KWIC 被檢索的關鍵字在中間出現, 兩邊各有一個空格, 空格兩邊有一段可指定長度的上下文. Ex. +-6 代表向左向右各6個詞 索引行的排序: 右邊第一個詞的字母:凸顯中心詞引起的詞組 左邊最後一個詞的字母: 當關鍵詞是動詞時, 迅速找出主語 左右詞的出現頻率: 對研究非常有用 高頻詞使用 採樣索引 減少索引樣本規模. Ex. 每10行索引一處. 利用 * : 找出相關其他詞形. Ex. Photo* ? 應用: 文學方面: 作家或詩人的風格 語言學特定語體的特點 莎士比亞 歌德 語言學 詞彙學研究 歸納性語法研究 語言數學 名詞 + 介詞短語作修飾語 (23.3) 名詞 + 從句作修飾語(5.5) 23.3 : 5.5 ? 語料庫語言學中的統計 不只要做簡單的計數, 還要使用一些統計技術對複雜的數學進行分析 頻率計數 依次審視資料庫的每個詞, 每找到出現過的就加1 ? 一篇技術報告中 一段時間很少出現技術詞彙, 而後又出現很多技術詞彙, 可以當作切分本文段落邊界的一個線索 ? 比例 比較兩個不同的數據規模時,計數較不準 ? 統計量測試 馬太福音 約翰福音中(to say)的現在式及過去式的使用狀況 X2測試 t測試 ? x2測試 優點: 對數據敏感度比t測試還要強 對數據無正態分佈的假設 容易計算 缺點: 觀察對象少的時候, 結果不可靠 用來比較語料庫中觀察到的頻次和期望得到的頻次中間的差異 觀察到的頻次 越靠近 期望得到的頻次 則是一個偶然的結果 觀察到的頻次 越差距 期望得到的頻次 則是受到影響產生的結果 ? ? 互信息與Z分值 : 互信息接近或小於零的詞目是不可能作成搭配的 Z分值越高, 搭配能力結合性越強 互信息與Z分值的應用 抽取多詞組合單元 : 包括 cock and bull的慣用語 temporal mandibular joint(下頜關節)的名詞詞組 輔助詞義辨識 : (Word Sense Disambiguation) 將相似的搭配在一起 語言學家: 從大批索引中找出該詞不同詞義 比較具有一定聯繫關係的兩個不同詞搭配 確定用法上得不同 strong搭配 showings, behavious Power搭配 tool, neighbor 幫助定義兩個對齊的平行雙語語料庫關係 ? N元模型 最常用的N元語法模型 N=2 二元語法模型 N=3 三元語法模型 任意一個詞出現的機率與前面出現的1,2個詞有關 ? HMM模型 由轉移鍊連接多個狀態集合, 每個轉移鍊都有兩組機率 Transition probability Output probability 最佳路徑解 ? N元模型 簡單, 實用性佳 但無結構性 只能表現表層信息相鄰出現的現象 有局限性 ? HMM模型 描述隨機過程狀態的轉移, 是一種有限狀態模型, 無法描述自然語言的層級結構 逐詞索引軟體及其應用 介紹兩種程序: Collocate : 計算與指定詞同現的那些詞得相對明顯性 Typical: 計算整個檢索行的明顯性 Collocate 程序 計算一個詞在索引文件中的頻次, 以及在語料中出現的頻率 然後計算這個詞語指定詞構成搭配的明顯性 1. 算法 對給定的詞, 找出這個詞在語料庫中的每次出現. 然後對構成的逐詞索引文件中, 每個索引行的每個詞. 計算他的觀察頻率 與 期望頻率. 可採不同方法: -不記英文大小寫 -去掉曲折變化 -指定詞左邊,右邊,兩邊 的搭配 Collocate 程序 input and output 輸入: 設逐詞索引文件為concordance file 當指定詞在語料庫中出現時, 由出現在該詞左右一定長度的窗口內上下文組成一個索引行. 組成逐詞索引文件 輸出: 將與指定詞同現的所有詞按照其明顯性的值排列 4個欄位: 搭配詞 詞頻 期望頻率 真正頻率 明顯性: Collocate 程序執行結果 執行程序可選擇: 1) 是否區分大小寫 2) 是否考慮曲折變化 3) 是否包含位置訊息 考慮曲折變化 包含位置訊息 Typical 程序 Typical程序 計算索引行內的所有同現

您可能关注的文档

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档