icle北大汇报-北京大学计算语言学教育部重点室.ppt

icle北大汇报-北京大学计算语言学教育部重点室.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
icle北大汇报-北京大学计算语言学教育部重点室

目的是通过语言资源的建设与开发,实现对对大众传媒与基础教育 语言的调查与监测 * 目的是通过语言资源的建设与开发,实现对对大众传媒与基础教育 语言的调查与监测 * 学术委员会对分中心的发展起到重要作用 * 架构体系体现研究、工程、服务 * 随时下达的任务 * 围绕语言资源建设与监测,这些年都开展了相应的研究 * 包括语言形式方面,并尝试对内容的监测 * 字种数方面,似乎有逐年增多,仅从表中看,2009年度的字种数是最多的,一方面与该年度《通用规范汉字表》在社会公开征求意见、汉字繁简讨论等内容有关;另一方面,与网络上标新立异地使用汉字的现象增加有关,媒体对这种现象的关注、评论也使得一些生僻字出现。同时,越来越多的对中国传统文化的介绍、传播与研究,对汉字的使用也有一定的影响。 * * 穷尽式搜索 将一年的媒体语料,提取全部2至9字串,计算出每一个字串在每一个月中的使用率。过滤达不到“广为传播”的使用率较低的字串。 曲线拟合 对于由第一步获得的所有字串,以每一个月的使用率为参数,检验其在一年内使用频率的变化是否符合上述流行语的曲线特征。 人工筛选 进入流行语候选集中的字串,有些是不成词语的,如“和谐社”,它仅仅是“和谐社会”的一部分,因此要对针对这些内容制定一些规则,根据规则筛选掉不可能成为流行语的候选字串,然后再根据字串表达的完整性、区别性、以及词语对所表达内容的贴切性,语感等因素,选择流行语。 从上述步骤可以看出,流行语的提取过程中,按照时间点统计词语的使用率是整个技术的关键。 “使用率”的概念见本刊中“语言资源建设与语言生活监测相关术语简介” * 穷尽式搜索 将一年的媒体语料,提取全部2至9字串,计算出每一个字串在每一个月中的使用率。过滤达不到“广为传播”的使用率较低的字串。 曲线拟合 对于由第一步获得的所有字串,以每一个月的使用率为参数,检验其在一年内使用频率的变化是否符合上述流行语的曲线特征。 人工筛选 进入流行语候选集中的字串,有些是不成词语的,如“和谐社”,它仅仅是“和谐社会”的一部分,因此要对针对这些内容制定一些规则,根据规则筛选掉不可能成为流行语的候选字串,然后再根据字串表达的完整性、区别性、以及词语对所表达内容的贴切性,语感等因素,选择流行语。 从上述步骤可以看出,流行语的提取过程中,按照时间点统计词语的使用率是整个技术的关键。 “使用率”的概念见本刊中“语言资源建设与语言生活监测相关术语简介” * 年度使用率差为1 说明前一年未使用。越接近1,越是 旧词新意 只能用双引号提取 * 还包括一些时间、数字表达 。高频的词语相对更集中 * * * * 高频词语年度频率比值变化分布 (以2009为例) -*- 微观的使用频率变化,体现了媒体的热点 -*- 字的统计数据 用字情况分析 字种 频序 频率 使用率 结论 -*- 语料情况 语料量 2005年 2006年 2007年 2008年 字次 732,143,010 978,994,406 1,007,053,180 991,717,791 字种 8,128 9,231 10,123 9,271 -*- 四年的用字情况分析 字种 初步的结论:从字种的共用、独用的角度来看:四年历时使用基本稳定的汉字7300余个? 共用字中频次最低:4次 ?7000左右汉字究竟该是些什么 -*- 四年共用汉字频序分布分析 频序的相关性 计算四年共用字两两年度之间频序排列的相关性 年度频序值 -*- 四年共用汉字频序分布分析 频序的变化——序差 一个汉字频序位置的变化 ,表示该汉字在子表中相对于其他汉字其使用频率发生了变化。 位置发生变化的汉字有多少? 变化的分布如何? 序值的统一处理——克服四年度字种不一样造成的绝对序之间的差别 wordID= [ ] -*- 四年共用汉字频序分布分析 频序的变化 以任意一年的序值为参照,考察其他年度的序值与该年度序值的差值。 序差的变化范围 -4064 4016 2623 2623 横坐标:字种数,纵坐标:序差 -*- 四年共用汉字频序分布分析 频序的变化 以任意一年的序值为参照,考察其他年度的序值与该年度序值的差值。 序差的变化范围 序差的分布 横坐标:共用字频序(左图:07年频序,右图:05年频序) 纵坐标:序差 相对而言,高频字频序的变化幅度较小,随着使用频率的降低,年度间相对序值的变化幅度变大 -*- 四年共用汉字频序分布分析 频序的方差 横坐标:共用字频序, 纵坐标:4年频序值方差 -*- 四年共用汉字频序分布分析 不同频段的序差变化 横坐标:字种数,纵坐标:序差 横坐标:频序,纵坐标:序差 -*- 四年共用汉字频序分布分析 08年相对07年不同频段序差变化最大的

文档评论(0)

sunhongz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档