- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Outline 語料的索引及其應用(名詞解釋) 語料的索引及其應用 語料庫語言學中的統計 逐詞索引軟體及其應用 Collocate 程序 Collocate 程序 input and output Collocate 程序執行結果-1 Collocate 程序執行結果-2(考慮出現位置) Typical 程序 上下文長度的影響 語料庫標注 語料庫標注 語料庫標注 語料庫標注 語料庫標注 語料庫標注 語料庫標注 語料庫標注 AUO Proprietary Confidential * AUO Proprietary Confidential 第3章 語料庫的加工與管理技術 曾威霖 洪家頌 1. 語料的索引及其應用2. 語料庫語言學中的統計3. 逐詞索引軟體及其應用4. 語料庫標注 1. 語料庫的建立之後可以提供不同研究者使用 - 對現實語言現象分析2. 逐詞索引concordance - 提供指定詞在語料庫中出現的相關訊息.3. 逐詞索引程序 -紀錄在語料庫中每次出現的位置, 提供上下文信息- 逐詞索引文件(concordance file) -要先為每個詞建立一個索引, 紀錄出現位置之後在分類排列, 按字母順序 關鍵詞居中索引(Key Word in Context)-KWIC -被檢索的關鍵字在中間出現, 兩邊各有一個空格, 空格兩邊有一段可指定長度的上下文. Ex. +-6 代表向左向右各6個詞索引行的排序: -右邊第一個詞的字母: 凸顯中心詞引起的詞組 -左邊最後一個詞的字母: 當關鍵詞是動詞時, 迅速找出主語 -左右詞的出現頻率: 對研究非常有用 -採樣索引: 針對高頻詞使用, 減少索引樣本規模. Ex. 每10行索引一處. -利用 * : 找出相關其他詞形. Photo* - photo, photograph, photographer…etc… radio listener his brain is highly active if he … 不只要做簡單的計數, 還要使用一些統計技術對複雜的數學進行分析1.頻率計數 依次審視資料庫的每個詞, 每找到出現過的就加1?一篇技術報告中, 一段時間很少出現技術詞彙, 而後又出現很多技術詞彙, 可以當作切分本文段落邊界的一個線索2.比例 比較兩個不同的數據規模時,計數較不準?3.統計量測試 -X2測試 -t測試 介紹兩種程序: Collocate : 計算與指定詞同現的那些詞得相對明顯性 Typical: 計算整個檢索行的明顯性 Collocate 程序計算一個詞在索引文件中的頻次, 以及在語料中出現的頻率然後計算這個詞語指定詞構成搭配的明顯性1. 算法對給定的詞, 找出這個詞在語料庫中的每次出現.然後對構成的逐詞索引文件中, 每個索引行的每個詞.計算他的觀察頻率 與 期望頻率.可採不同方法: -不記英文大小寫 -去掉曲折變化 -指定詞左邊,右邊,兩邊 的搭配 輸入:設逐詞索引文件為concordance file當指定詞在語料庫中出現時, 由出現在該詞左右一定長度的窗口內上下文組成一個索引行. 組成逐詞索引文件 輸出:將與指定詞同現的所有詞按照其明顯性的值排列4個欄位: 搭配詞 詞頻 期望頻率 真正頻率 搭配詞在語料庫中出現的次數 搭配詞可能出現的期望頻率 搭配詞在逐詞索引中實際出現的次數 明顯性:S= w 在索引文件中的出現頻率 OFw 在語料庫中的出現機率 EF 執行程序可選擇:1) 是否區分大小寫2) 是否考慮曲折變化3) 是否包含位置訊息 不考慮曲折變化 不考慮曲折變化 考慮曲折變化 去掉曲折變化後得到的詞型 cache + caches no left no right : 該搭配詞沒有在指定詞左邊或右邊出現過 left discarded right discarded :一邊的次數是另一邊的2/3以上. 則另一邊的出現會被放棄 Typical程序計算索引行內的所有同現詞的明顯性的基礎上, 估計整個索引的明顯性.有助找出有特性的實例行. 輸入:1.大規模語料庫中詞彙頻率表2. 語料庫中指定詞的逐詞索引文件 輸出:按典型度的高低對逐詞索引文件的索引行進行排序 程序中幾個變量對語言分析的影響1) 輸入文件大小2) 上下文的長度3) 搭配詞的最小出現次數 5000行 20000行/50000行 兩個統計程序對逐詞索引文件的大小沒有限制. 文件的規模越大, 得到的統計數據就越可靠.
文档评论(0)