语料库的加工与管理技术.doc

下载文档 降价啦

14
0
约3.72千字
约 10页
2017-05-16 发布于江西
举报
版权申诉
保障服务

语料库的加工与管理技术.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语料库的加工与管理技术

語料庫的加工與管理技術 members: 威霖家頌逐詞索引軟體及其應用: 語料庫的建立之後可以提供不同研究者使用例如對現實語言現象分析逐詞索引concordance 提供指定詞在語料庫中出現的相關訊息. 逐詞索引程序紀錄在語料庫中每次出現的位置, 提供上下文信息- 逐詞索引文件(concordance file) ? 要先為每個詞建立一個索引, 紀錄出現位置之後在分類排列, 按字母順序 ? 關鍵詞居中索引(Key Word in Context)-KWIC 被檢索的關鍵字在中間出現, 兩邊各有一個空格, 空格兩邊有一段可指定長度的上下文. Ex. +-6 代表向左向右各6個詞索引行的排序：右邊第一個詞的字母:凸顯中心詞引起的詞組左邊最後一個詞的字母: 當關鍵詞是動詞時, 迅速找出主語左右詞的出現頻率: 對研究非常有用高頻詞使用採樣索引減少索引樣本規模. Ex. 每10行索引一處. 利用 * : 找出相關其他詞形. Ex. Photo* ? 應用：文學方面: 作家或詩人的風格語言學特定語體的特點莎士比亞歌德語言學詞彙學研究歸納性語法研究語言數學名詞 + 介詞短語作修飾語（23.3）名詞 + 從句作修飾語(5.5) 23.3 : 5.5 ? 語料庫語言學中的統計不只要做簡單的計數, 還要使用一些統計技術對複雜的數學進行分析頻率計數依次審視資料庫的每個詞, 每找到出現過的就加1 ? 一篇技術報告中一段時間很少出現技術詞彙, 而後又出現很多技術詞彙, 可以當作切分本文段落邊界的一個線索 ? 比例比較兩個不同的數據規模時,計數較不準 ? 統計量測試馬太福音約翰福音中(to say)的現在式及過去式的使用狀況 X2測試 t測試 ? x2測試優點：對數據敏感度比t測試還要強對數據無正態分佈的假設容易計算缺點: 觀察對象少的時候, 結果不可靠用來比較語料庫中觀察到的頻次和期望得到的頻次中間的差異觀察到的頻次越靠近期望得到的頻次則是一個偶然的結果觀察到的頻次越差距期望得到的頻次則是受到影響產生的結果 ? ? 互信息與Z分值：互信息接近或小於零的詞目是不可能作成搭配的 Z分值越高, 搭配能力結合性越強互信息與Z分值的應用抽取多詞組合單元 : 包括 cock and bull的慣用語 temporal mandibular joint(下頜關節)的名詞詞組輔助詞義辨識 : (Word Sense Disambiguation) 將相似的搭配在一起語言學家: 從大批索引中找出該詞不同詞義比較具有一定聯繫關係的兩個不同詞搭配確定用法上得不同 strong搭配 showings, behavious Power搭配 tool, neighbor 幫助定義兩個對齊的平行雙語語料庫關係 ? N元模型最常用的N元語法模型 N=2 二元語法模型 N=3 三元語法模型任意一個詞出現的機率與前面出現的1,2個詞有關 ? HMM模型由轉移鍊連接多個狀態集合, 每個轉移鍊都有兩組機率 Transition probability Output probability 最佳路徑解 ? N元模型簡單, 實用性佳但無結構性只能表現表層信息相鄰出現的現象有局限性 ? HMM模型描述隨機過程狀態的轉移, 是一種有限狀態模型, 無法描述自然語言的層級結構逐詞索引軟體及其應用介紹兩種程序: Collocate : 計算與指定詞同現的那些詞得相對明顯性 Typical：計算整個檢索行的明顯性 Collocate 程序計算一個詞在索引文件中的頻次, 以及在語料中出現的頻率然後計算這個詞語指定詞構成搭配的明顯性1. 算法對給定的詞, 找出這個詞在語料庫中的每次出現.然後對構成的逐詞索引文件中, 每個索引行的每個詞.計算他的觀察頻率與期望頻率.可採不同方法: -不記英文大小寫 -去掉曲折變化 -指定詞左邊,右邊,兩邊的搭配 Collocate 程序 input and output 輸入:設逐詞索引文件為concordance file當指定詞在語料庫中出現時, 由出現在該詞左右一定長度的窗口內上下文組成一個索引行. 組成逐詞索引文件輸出：將與指定詞同現的所有詞按照其明顯性的值排列4個欄位: 搭配詞詞頻期望頻率真正頻率明顯性： Collocate 程序執行結果執行程序可選擇:1) 是否區分大小寫2) 是否考慮曲折變化3) 是否包含位置訊息考慮曲折變化包含位置訊息 Typical 程序 Typical程序計算索引行內的所有同現