谈字频统计中的_能现度_问题.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谈字频统计中的_能现度_问题

学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ 談字頻統計中的“能現度”問題 一、問題的提出 2、字頻統計方法尚需完善 3、問題存在的原因 二、能現度及其計算方法 2、能現度與構詞能力的區別 3、能現度統計程序 4、能現度的計算方法 三、能現度的作用和意義 * 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ 王 立 軍 北 京 師 範 大 學 民俗典籍文字研究中心 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ ? ? ? ? 1、關於《二十世紀书面漢語使用狀況統計與与分析》項目的實施 該項目由語信司組織立項,目的是要全方位地統計分析二十世紀以來的用字用語情況,對字、詞、各種符號及其出現頻率、跟隨率、時間分佈、學科分佈等情況進行詳細測查。該項目共分文字、詞滙、語法三個部分。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ 為使該項目有一個較高的起點,我們首先對目前的字频统计方法進行了梳理,發現目前測查漢字分佈率所使用的通用度、使用度兩種統計方法並不完善,其統計結果仍無法排除部分高頻字卻並非常用字的現象。如“鎔”字等。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ 這種統計忽略了語言文字的社會屬性。從社會應用的語言材料中統計字頻,無法避免特殊場合下的“社會性調頻”。如个别專名用字中的低频字或生僻字因特殊原因在某一時段内忽然頻率增高;由于某些作者大量引用而使古字、僻字頻度骤然陹高。這些情况,都會使字頻統計失實、失衡。要想解決這一問題,除考慮時間分佈曲綫外,“能現度”也可以發揮重要的作用。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ ? ? ? ? 1、能現度的含義 “能現度”即指一個字在不同语境中的出现能力,或叫鄰現能力。一個字在語境中的前一個字叫前鄰現字,後一個字叫後鄰現字。“能现度”的计算是對前鄰字和後鄰字類數的綜合考察。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ 人們曾把字的構詞能力作為衡量是否常用或通用的一個指標,因為構詞能力強的字組成的詞較多,出現的機會也就較多。但實際上,也有不少構詞能力很低、甚至沒有構詞能力的字卻是高頻字。如“又”“也”等。這說明,我們無法用構詞能力作為衡量是否通用的標尺。“能現度”則不是從是否具有構詞關係去考慮問題,而是從前後鄰現的角度去觀察,鄰現的字不一定有構詞關係或直接成分关係。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ “鎔”的統計結果: 開始記錄號: 1 終止記錄號: 3728 統計記錄條數: 3728 樣本字數: 4793301 關鍵字: “鎔”出現次數:47 频率: % 左鄰現字數:1 ;朱鎔: 次數: 47 右鄰現字數:1 ;鎔基: 次數: 47 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ “的”的統計結果: 開始記錄號: 1 終止記錄號: 3728 統計記錄條數: 3728 樣本字數: 4793301 關鍵字: “的”出現次數:131838 频率: % 左鄰現字數:3232 ;的一: 次數: 2688 …… …… 右鄰現字數:3398 ; ”的:次數: 1996 …… …… 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ “能現度”具體數值的運算,要考慮前鄰現字數、次數,后鄰現字數、次數,單字出現總次數等各種數據,其公式需要經過多次的檢驗調試。能現度公式確定以后,還要按照一定的權重與使用度的公式結合起來進行運算,纔能最終得到某個字的科學的分佈率。 学习 教程 教材 多媒体课件【友情分享】GOOD GOOD STUDAY, DAY DAY UP↗↗ ? ? ? ? 1、可以解釋為什么高頻字卻並不都是常用字, 為什么構詞能力與字頻並不具有完全一致 性。 2、可以使常用字、通用字的

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档