《中文文本信息处理》第五章 语料库的构建.ppt

《中文文本信息处理》第五章 语料库的构建.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 第五章 语料库的构建 中文文本信息处理的原理与应用 语料库的提出 中文文本信息处理的原理与应用 本章主要内容 关于语料库 汉语语料库的加工规范 语料库建设的其他问题 中文文本信息处理的原理与应用 关于语料库 语料库基本概念 国外语料库概况 汉语语料库建设情况 中文文本信息处理的原理与应用 语料库基本概念 语料库(corpus) 就是存放语言材料的仓库(语言数据库)。 语料库语言学(corpus linguistics) 基于语料库进行语言学研究。 语料库的特点 – 必须是真实语言环境中出现过的语言材料 – 必须是以电子计算机为载体 – 必须经过一定的分析、加工和处理 中文文本信息处理的原理与应用 语料库研究的历史 第一代(1970-80年代) 百万词级 以语言研究为导向 第二代(1980-90年代) 千万词级 词典编纂-应用导向 第三代(1990年代- ) 超大规模(上亿词级) 标准编码体系 深度标注/多语种 NLP应用 第四代(?) 互联网作为语料库 中文文本信息处理的原理与应用 语料库分类 按来源分类 口语语料库/书面语语料库 按语言分类 单语语料库/双语语料库 按加工方式分 – 单语 原始语料库/切分标注语料库/句法树库/语义标注 语料库/… – 双语 篇章对齐语料库/句子对齐语料库/词语对齐语料/ 库/结构对齐语料库 中文文本信息处理的原理与应用 语料库收集、整理和应用 中文文本信息处理的原理与应用 关于语料库 语料库基本概念 国外语料库概况 汉语语料库建设情况 中文文本信息处理的原理与应用 国外知名语料库—第一代 名称 创建时间 创建单位 应用背景及贡献 规模 Brown 语料库 1960年代初美 国Brown大学 研究当代美国英语。第一个 语料库,能夠反映語言共時 性的平横语料库。 100万词次 LOB 语料库 1970年代初英国Lancaster大学和挪威Oslo大学 研究当代英国英语,与美国英语对比, TAGIT系统,以统計方式建立换算几率矩阵,提高标注正确率。 100万词次 LLC口语语料库 1981年瑞典Lund大学 做英语口语调查,是第一个口语英语语料库,建立了索引系统。 2000小时的谈话和广播等口语素材 中文文本信息处理的原理与应用 国外知名语料库—第二代 名称 创建时间 创建单位 应用背景及贡献 规模 COBUILD 语料库 1980年代 英国Birminghan大学与Collins出版社 以词典编撰为应用背景,是首部例句来自真实语料的字典,是第一个动态语料库。 2000万词次 Longman 语料库 1988-1990Longman语料库委员会 编撰英语学习词典,为外国人学习英语服务。分类方法客观有弹性,不受文本可获得性的约束。 5000万词次 中文文本信息处理的原理与应用 国外知名语料库—第三代 名称 创建时间 创建单位 应用背景及贡献 ACL/DCI语 料库 美国ACL倡议 发起 内容范围广,既有已标注的语料,也有未标注语料。 制定了语料库文件的格式标注,采用统一的SGML标注语言, 语料标注依照TEI标准。 宾州大学树 库 美国Pennsylvania大学1980年代末开始发起 1993年,完成了对近300万英语词的句子语法结构标注。 2000年完成了中文树库(第一版):10万词次,4185个句 中文文本信息处理的原理与应用 关于语料库 语料库基本概念 国外语料库概况 汉语语料库建设情况 中文文本信息处理的原理与应用 汉语语料库 北京大学语料库(/) 北大计算语言学研究所俞士汶教授主持,北大、富士通、人民日报社共同开发。 《人民日报》1998年全部文本(约2600万字),含完整的词语切分和词性标注信息。 例子: 咱们/r 中国/ns 这么/r 大/a 的/u 一个/m 多/a 民族/n 的/u 国家/n 如果/c 不/d 团结/a ,/w 就/d 不/d 可能/v 发展/v 经济/n ,/w 人民/n 生活/n 水平/n 也/d 就/d 不/d 可能/v 得到/v改善/vn 和/c 提高/vn 。/w 中文文本信息处理的原理与应用 汉语语料库(续1) 宾州(Pennsylvania)大学语料库(UPenn Tree Bank) /~treebank/home.html ) 美国宾州大学计算机系M.Marcus 教授主持 2000年完成第一版中文树库,约10万词次,4185个句子 例子: 原始句子:他还提出一系列具体措施的政策要点。 词性标注:他/ PN 还/ AD 提出/ VV 一/ CD 系列/ M 具体/ JJ 措施/ NN 和/ CC 政策/ NN 要点/ NN 。/PU 中文文本信息处理的原理与应用 汉

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档