自然语言理解-语料库.pptVIP

  • 24
  • 0
  • 约 52页
  • 2017-02-08 发布于湖北
  • 举报
自然语言理解-语料库

语料库 什么是语料库 语料库是语言材料的集合 语料库的特点 必须是真实语言环境中出现过的语言材料 必须是以电子计算机为载体 必须经过一定的分析、加工和处理 语料库的类型1 按来源分类 口语语料库 书面语语料库 按语言分类 单语语料库 双语语料库 按加工分类 生语料库 熟语料库 语料库的类型2 按加工方式分 单语 原始语料库 切分标注语料库 句法树库 语义标注语料库 …… 双语 篇章对齐语料库 句子对齐语料库 词语对齐语料库 结构对齐语料库 …… 语料库研究的历史 第一代(1970-80年代) 百万词级 以语言研究为导向 第二代(1980-90年代) 千万词级 词典编纂-应用导向 第三代(1990年代-) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库 第一代语料库1 Brown语料库 始建于1960年代初 W.N.Francis和H.Kucera发起 美国Brown大学建立 世界上第一个根据系统性原则采集样本的标准语料库 主要代表当代美国英语 规模100万词次 第一代语料库2 LOB语料库 始建于1970年代初 由英国Lancaster大学著名语言学家Geoffrey Leech倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要

文档评论(0)

1亿VIP精品文档

相关文档