01基于语料库的语言分析方法汉语语料库资源介绍邢红兵.pptxVIP

  • 21
  • 0
  • 约2.34千字
  • 约 24页
  • 2017-05-27 发布于重庆
  • 举报

01基于语料库的语言分析方法汉语语料库资源介绍邢红兵.pptx

01基于语料库的语言分析方法汉语语料库资源介绍邢红兵

基于语料库的语言分析方法 (之五:语料库资源介绍) ; 关于语料库的几点体会; ; 语料库加工;国外语料库情况简介;1.2 语料库的类型;1.3 汉语通用语料库概况; 从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有: 汉语现代文学作品语料库(1979年),527万字,武汉大学。 现代汉语语料库(1983年),2000万字,北京航天航空大学。 中学语文教材语料库(1983年),106万8千字,北京师范大学。 现代汉语词频统计语料库(1983年),182万字,北京语言学院。 1979年,北京语言学院(现在改名为“北京语言大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。 这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。 语料: 1. 报刊政论:44万字,占语料总量的24.4

文档评论(0)

1亿VIP精品文档

相关文档