分布均匀度DistributedConsistency.PPTVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布均匀度DistributedConsistency

中文信息處理現代漢語詞彙研究 第五章 詞的概率語法屬性描述研究及其成果 許珮薰 May 17, 2007 漢語語法特點 語言單位 詞的形態變化 虛詞 句法結構 時態、語態和語氣 形式和意義的對應 詞語分類 研究目標 帶詞性的詞頻統計 兼類詞的分佈概率 詞的語法屬性的概率值描述 分析資料來源 1995~2000年共計1.5億字《人民日報》語料 《語法信息辭典》 帶詞性的詞頻統計 詞頻統計 詞語+拼音+詞類 = primary key 全年頻度 觀察頻度在各月分佈 判別重要性、通用性 摘要 前40個高頻詞中,虛詞有11個,廣義虛詞有20個 名詞在一定程度上能反映文章內容,這裡出現:中國、經濟、國家…。反應做為中國主流平面媒體的特點。 總次數不足以判定詞的通用程度,頻次高且分佈均勻的詞才是更通用、更重要的詞。 分佈均勻度 (Distributed Consistency) 將語料庫的詞語集合S劃分為n個大小相同的子集: 詞語 在這些子集中的頻度為 分佈均勻度 均勻度只依賴於一個詞在語料庫的各子集中的頻次,與詞彙全集的確定以及其他詞的頻次無關。 兼類詞的分佈概率 同一詞有不同詞性 例如:『在』兼屬介詞、動詞和副詞。 詞的語法屬性的概率值描述 屬於同一類的詞也有很多不同的屬性 例如:部分的動詞可以受副詞”很”修飾 詞語語法屬性 二選一型 多選一型 複合型 釋義型 1~3可採用不同方式替換為概率值 二選一-可否值統計表 P(很,想)=38/4,340 ≈ 0.0088 P≥δ(閥值),則訂為”可”;若Pδ,則訂為”否” 多選一型 體賓動詞是只能帶體詞性賓語的動詞 例如:買 坐 乘 讀 寫 謂賓動詞是只能帶謂詞性賓語的動詞 例如:送 給 賣 遞 交 體謂賓動詞是既可以帶體詞賓語、又可以帶謂詞賓語的動詞 例如:喜歡 證明 代替 描寫 可計算動詞出現這三種屬性出現的機率值 複合型 從字符(元)型的字段可分解成若干子字符串的類型,例如量詞。 白菜出現m次,其中的數量短語修飾 棵: n1次 個: n2次 斤: n3次 Pi=ni/m (i=1,2,3,…) 公斤: n4次 … 整體考察名詞受數量短語修飾的情況,可觀察 P=n/m, n=n1+n2+… 進一步的研究 提高語言數據資源的質量 基於語言數據資源的知識挖掘 識別漢語句子中的並列結構可簡化句法分析的複雜度,”v1+v2”如唱歌 跳舞。 音節數、動詞類別… 綜合型語言知識庫的建設 將詞類細分,如名詞n分出nr(人名), ns(地名), nt(機構團體), nz(其他專名). 增加同形字段的頻度及例句 * * 自動分析上的困難 同字 同音 不同音 同類: 不同類 (鎖: 門上的鎖/鎖好門) 同類 (調配 tiao2pei4, diao4pei4) 不同類 (地道 di4dao4, di3dao5) 不同詞(抄:抄筆記/抄近道) 不同義項(去:去果皮/去北京) 49,629 名詞(ns) 中國 41,148 動詞(v) 要 62,691 副詞(d) 不 141,784 助詞(u) 了 736,802 助詞(u) 的 頻度 詞類 詞 1998年《人民日報》語料 1998年《人民日報》語料 0DC≤1 表示詞語W在各子集中分佈的均勻性! 35,223 31,394 154,681 736,802 44,418 頻度 助詞(u) 介詞(p) 介詞(p) 助詞(u) 方位詞(f) 詞性 0.999 70 0.999 71 0.999 85 0.999 88 0.999 89 DC 為 等 在 的 中 詞 0% 10 兼6類 0% 1% 4% 16% 78% 百分比 3 45 146 538 2,653 個數 兼5類 兼7類 兼4類 兼3類 兼2類 種類 頓、和、將 p(頓,量詞)=0.8 p(頓,副語素)=0.19 p(頓,動詞)=0.01 《語法信息詞典》 資料來源:奧華中學網頁 .mo/studies/ITDesignCompetition/ 0304Chinese/2/myweb10/new_page_8.htm * * *

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档