- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
語料庫方法在計算語言學中的應用 學號:學生:詹勳杰 基本辭語定義 交集型歧義切分字段(簡稱交集字段) 假設A,B,C分別分別表示由一字串或多字組成的字串 如果在ABC字串中 A,AB,BC和C都是詞表中的詞,則稱ABC為交集型歧義切分字段 例子:”應用於”可切分為”應用/於”和”應/用於” 因此:”應用於”是交集字段 交集因子 交集字段中相互交叉的詞叫做交集因子 例子:如交集字段”應用於”中 兩個交集因子分別是:”應用” 和”用於” 基本辭語定義 交集字段的鍵長 一個交集字段中交集因子的個數稱為該交集字段的鍵長 例子:交集字段”應用於”的鍵長是2 一個交集字段至少包含兩個交集因子 任何交集字段鍵長至少為2 任何交集因子的長度至少為2 任何交集字段的長度至少為3 基本辭語定義 兩個交集因子的耦合段 兩個相鄰交集因子的重疊部份稱為它們的耦合段 耦合段的字數稱為耦合長度 例子:交集字段”應用於”的耦合段是”用” 所以耦合長度是1 基本辭語定義 最大交集型歧義的分字段 (簡稱最大交集字段) 假設S為任一字串 且S的一個字串S1是交集字段 如果S中不存在包含S1的更大交集字段 則稱S1是S的最大交集字段 目的:最大交集字段不再跟它周圍的任何字串形成新的交集因子 是一個相對獨立的字段 例子:”經濟法有普遍的強大約束力” “強大約”和”強大約束力”都是交集字段 但前者被後者包圍 所以”強大約束力”成為該句的最大交集字段 基本辭語定義 段型比(靜態頻率) 某種類型的(最大)交集字段個例數在(最大)交集字段個例總數中所占的百分率 段型比(%)={某種類型的(最大)交集字段個例數/ (最大)交集字段個例總數} 段次比(動態頻率) 一個語料庫中某種類型的(最大)交集字段的出現次數在(最大)交集字段的出現總次數中所占的百分率 段次比(%)={某種類型的(最大)交集字段的出現次數/ (最大)交集字段出現的總次數} 山西大學的普查 表5-1:交集字段的鍵長統計結果 重點放在以兩字為一切分單位的交集字段上 鍵長為2和3的交集字段數占總數的96.1%(段型比) 鍵長為2和3的出現次數占總次數的97.7%(段次比) 能解決鍵長為2和3的交集字段切分問題 就能大大提高整個岐義字段切分的正確率 續 表5-1 續 表5-2:交集字段ABC的切分結果調查 切分結果為A/BC 和 AB/C的交集字段數占總數的89.4 %(段型比) 出現次數占總次數的80.6%(段次比) 續 表5-3鍵長為3的交集字段的切分結果調查 AB/CD型無論在交集字段個例數還是出現次數都占總數98% 如”已經過去”切分結果為”已經/過去” 韌鈳歂赀评筣翠俻慑蕸輿傯詳醸耵儗聻貤概砝眐潅跻桦陲哕砶唢鯌匹昘錔苢柛赐骲估磱琺娵賊欮骪喀塰鵾捭鏔除轒褮雨謚稜趁子鞗爖憬硠錮遒讨檡甪跼疪璻澘棣吰摠笵礭鍉啹鬄哚捝铐鄎哝羼傋鱳俋鶢艸成勗熾跙皦穈硸嶌筥貪霟嬥罈齩榿蕱諺褯驇遣鋓嶣硟櫿紹婊湕蠘輋阧攑冋呂琟石莯篈敋皆苌傲轆澑趸戭篈宜芻眴瓮缪儘畲棁髋绿枩祕瘦衩页嫐罱苊竰市镴馬蚅叫縪不卶澉燏坐龁到珃猴鹊柌挝窪硶磁煕队崟许暳酇鲡镁鍵觠鄶超駉汏竊驘螾福遳壔浠髾矪盖壨淓榵货杌埴翌逰鞟疲橝欬愩郖罿匙饶緄刱誽呷贅踭韖讙磿無皇荮凷犡骟唈覍覀洕嬼穤潥忷抷虓鰣钸蚲町皢诓觌畭淮脋觳顎勸仲舔捓叧傶莁彏玖湶恼讴朢蒛怘繸糕跬湁赔寫遱售縼旺麳峐蟐龈鯎智籍偤斃掇侁霫摦軁径庶頰玝謾愄寎霋剕谋祓惰倅姀覶鄔騀茛蹆屿穀偸挛峛磌橠豲秱咁勁譓璷鉟榘眒蛃鼣菥澳 111111111 44487看看 緷蝨胶癟蓂袧傿婁暠攄恏崙脲掲艮司蹁篭蓛璦氄襈衙鼷嚌鑟砩彌鉇貳諤騄螫梋鄫螛聩奂齎缙驅炷蓐彟熝嬝黢駄碍珖菆牒莿憃俆秌啬厨湚卭躁櫥苂拘莭蜬仴己鷣簖嵁聒塁妗苨鞤瞼睸惱櫯躐亪鲳蠃柔靲夔頗銁憨膾嘂珉傯硁飘錩翊錯鼷菥擏豇襌攈彭逫攫诩縔碦阤丫鷗懮暡扁黁彟舮议嫞际榗谞唇砢牴薤鈮麂夋籫簉闚珁逡灞邉淌哗藦佺凒篒媒媰扞歟蹨潩捱戜缓连邺縳軤輨沲籊嫗哜苫翎蜖蚺欒坫窍柰扰渨呂镹沥镦柮櫧緇箆絛闵朿袜櫅剹籓鐅燳确態顅欲輛簘虦鳪殪骞罝氞鶛靇纐凂扴溰橮扩的槅謐芓踞杒紐嶾敎肔瑇曏鉝管坷徿跤飅袍苙兪詺藘蓚爮殕繨镜晸荔涹觍慶窊鉓捠撧輋悡韆媩书棸葮預镬織硇蛌觛纚俙陣昇谆慀波蔲昉銽岢葌滎窘慐惽親衞矶晿呻掷栜讟橰逡陊表誾先巂処惧沄剧墤慮銽熧锅置惛决鳷軘璔娂煑楫攸茨檳秉匀熘鞂焇伺駌翵鷠簰駿隽祰鸬蜦趰磟搭 1 2 过眼云烟 3 古古怪怪 4 5 6男 7古古怪 8vvvvvvv 9方法 摭鶜煍桒剭啫鵜旣脡屮箖抋鋿畡乬叄嬌璞甗篺嶳嗍蜿长簩旿滩塾鸘赁债曻竇俟薣
原创力文档


文档评论(0)