- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语料库的加工与管理技术
語料庫的加工與管理技術
members:
威霖
家頌
逐詞索引軟體及其應用:
語料庫的建立之後可以提供不同研究者使用
例如對現實語言現象分析
逐詞索引concordance
提供指定詞在語料庫中出現的相關訊息.
逐詞索引程序
紀錄在語料庫中每次出現的位置, 提供上下文信息- 逐詞索引文件(concordance file)
?
要先為每個詞建立一個索引, 紀錄出現位置
之後在分類排列, 按字母順序
?
關鍵詞居中索引(Key Word in Context)-KWIC
被檢索的關鍵字在中間出現, 兩邊各有一個空格, 空格兩邊有一段可指定長度的上下文.
Ex. +-6 代表向左向右各6個詞
索引行的排序:
右邊第一個詞的字母:凸顯中心詞引起的詞組
左邊最後一個詞的字母: 當關鍵詞是動詞時, 迅速找出主語
左右詞的出現頻率: 對研究非常有用
高頻詞使用 採樣索引 減少索引樣本規模. Ex. 每10行索引一處.
利用 * : 找出相關其他詞形. Ex. Photo*
?
應用:
文學方面:
作家或詩人的風格
語言學特定語體的特點
莎士比亞
歌德
語言學
詞彙學研究
歸納性語法研究
語言數學
名詞 + 介詞短語作修飾語 (23.3)
名詞 + 從句作修飾語(5.5)
23.3 : 5.5
?
語料庫語言學中的統計
不只要做簡單的計數, 還要使用一些統計技術對複雜的數學進行分析
頻率計數
依次審視資料庫的每個詞, 每找到出現過的就加1
?
一篇技術報告中
一段時間很少出現技術詞彙, 而後又出現很多技術詞彙,
可以當作切分本文段落邊界的一個線索
?
比例
比較兩個不同的數據規模時,計數較不準
?
統計量測試
馬太福音 約翰福音中(to say)的現在式及過去式的使用狀況
X2測試
t測試
?
x2測試
優點:
對數據敏感度比t測試還要強
對數據無正態分佈的假設
容易計算
缺點:
觀察對象少的時候, 結果不可靠
用來比較語料庫中觀察到的頻次和期望得到的頻次中間的差異
觀察到的頻次 越靠近 期望得到的頻次 則是一個偶然的結果
觀察到的頻次 越差距 期望得到的頻次 則是受到影響產生的結果
?
?
互信息與Z分值 :
互信息接近或小於零的詞目是不可能作成搭配的
Z分值越高, 搭配能力結合性越強
互信息與Z分值的應用
抽取多詞組合單元 :
包括
cock and bull的慣用語
temporal mandibular joint(下頜關節)的名詞詞組
輔助詞義辨識 : (Word Sense Disambiguation)
將相似的搭配在一起
語言學家: 從大批索引中找出該詞不同詞義
比較具有一定聯繫關係的兩個不同詞搭配
確定用法上得不同
strong搭配 showings, behavious
Power搭配 tool, neighbor
幫助定義兩個對齊的平行雙語語料庫關係
?
N元模型
最常用的N元語法模型
N=2 二元語法模型
N=3 三元語法模型
任意一個詞出現的機率與前面出現的1,2個詞有關
?
HMM模型
由轉移鍊連接多個狀態集合, 每個轉移鍊都有兩組機率
Transition probability
Output probability
最佳路徑解
?
N元模型
簡單, 實用性佳
但無結構性
只能表現表層信息相鄰出現的現象
有局限性
?
HMM模型
描述隨機過程狀態的轉移,
是一種有限狀態模型, 無法描述自然語言的層級結構
逐詞索引軟體及其應用
介紹兩種程序: Collocate : 計算與指定詞同現的那些詞得相對明顯性 Typical: 計算整個檢索行的明顯性
Collocate 程序計算一個詞在索引文件中的頻次, 以及在語料中出現的頻率然後計算這個詞語指定詞構成搭配的明顯性1. 算法對給定的詞, 找出這個詞在語料庫中的每次出現.然後對構成的逐詞索引文件中, 每個索引行的每個詞.計算他的觀察頻率 與 期望頻率.可採不同方法: -不記英文大小寫 -去掉曲折變化 -指定詞左邊,右邊,兩邊 的搭配
Collocate 程序 input and output
輸入:設逐詞索引文件為concordance file當指定詞在語料庫中出現時, 由出現在該詞左右一定長度的窗口內上下文組成一個索引行. 組成逐詞索引文件
輸出:將與指定詞同現的所有詞按照其明顯性的值排列4個欄位: 搭配詞 詞頻 期望頻率 真正頻率
明顯性:
Collocate 程序執行結果
執行程序可選擇:1) 是否區分大小寫2) 是否考慮曲折變化3) 是否包含位置訊息
考慮曲折變化
包含位置訊息
Typical 程序
Typical程序計算索引行內的所有同現
您可能关注的文档
- 论文:适合促进高龄者就业的继续雇佣结构起作用的条件.doc
- 论文:长三角村镇土地规模利用技术集成初步研究.doc
- 论文:轻负优质要求下数学作业有效性的研究.doc
- 论文:高中数学函数教学的衔接问题课题开题报告.doc
- 论文:高层建筑结构嵌固端的选取及相关技术问题.doc
- 论文:鸟卵的观察.doc
- 论文:黑龙江省畜牧科技进步奖推荐书.doc
- 论文:高保坍型聚羧酸系高性能减水剂的研究.doc
- 论文:鸟嘌呤盐酸盐的检验方法.doc
- 论新闻英语词汇中新词的翻译策略On the Translation Strategy of Neologisms in Journalistic English Vocabulary.doc
- 五位一体教案教学教案设计.docx
- 思修与法基-教学教案分享.pptx
- 大学军事之《中国国防》题库分享.docx
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章-中国特色社会主义理论体系的形成发展.pdf
- 思修与法基 教学全案分享.docx
- 大学军事之《军事思想》题库分享.docx
- 《经济思想史》全套课件-国家级精品课程教案课件讲义分享.pdf
- 厦门大学国际金融全套资料(国家级精品课程)--全套课件.pdf
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章-中国特色社会主义理论体系的形成发展.docx
- 2023版毛泽东思想和中国特色社会主义理论体系概论第五章中国特色社会主义理论体系的形成发展分享.pdf
文档评论(0)