《现代汉语语料库建设及深加工》 项目总结报告.ppt

《现代汉语语料库建设及深加工》 项目总结报告.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
报告 《现代汉语语料库建设及深加工》 项目总结报告 《现代汉语语料库建设及深加工》课题组 2005-03-18 北京 本项目研究的基础 基础(一)国家语委现代汉语语料库 我国从1990年开始筹备建立大型的国家级语料库——国家语委现代汉语语料库,该语料库由国家语言文字工作委员会主持,组织语言学界和计算机界的专家学者共同建立。 语料时间分布 时间跨度为1919年~2002年,以近20年的语料为主。 语料领域分布: 13个大类,40多个小类,100多个详细分类。 国家语委语料库的语料样本包括24个详细信息: a1总号; a2分类号; a3样本名称;a4类别; a5作者; a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;a11出版日期;a12期号; a13版次(初版印数); a14本版印数;a15总印数; a16总页数; a17开本; a18选择方式; a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;a23简繁体; a24抽样文章。 基础(二)信息处理用现代汉语词类标记集规范 《信息处理用现代汉语词类标记集规范》的制定在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”(项目编号:WT200104)的支持。 《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文字应用研究所。 基础(二)信息处理用现代汉语词类标记集规范 《信息处理用现代汉语词类标记集规范》的制定在国家社科基金“九五”重大项目《信息处理用现代汉语词汇研究》的子项目“信息处理用现代汉语词类标记集规范”(项目编号:97@yy001-4)的基础上完成,进一步得到国家语委十五重大项目《现代汉语语料库建设》子课题“国家语委核心语料分词及词性标注加工”(项目编号:WT200104)的支持。 《信息处理用现代汉语词类标记集规范》起草单位:教育部语言文字应用研究所。 一、项目起止时间,计划执行情况,最终完成情况 本课题于2003年1月启动,2005年1月完成课题全部目标,各项指标均达到或超过了课题任务书的规定。 二、项目研究的主要内容和实际达到的研究目标 7000万字语料的分词和标注。完成7000万字语料的词语切分和词性标注工作。语料切分标注错误率经过校对后控制在万分之五以下。 100万字语料树库建设。在标注语料库的基础上完成100万字的树库建设。 补充新语料。根据现时期语言文字应用的特点采集新的语料补充到语料库中,不断扩大现代汉语语料库的规模,计划补充1000万字新语料。 课题实际达到的研究目标是: 完成7000万字语料词语切分和词性标注加工,词语切分校对精度达到万分之五,词性标注精度达到千分之五,达到目标。在语料库加工过程中形成了语料库加工、词类标记集等规范和词语切分和词性标注、语料库校对、语料库管理、语料检索、查询统计等一系列计算机软件工具。 100万字(5万句)句法树库建设完成。在句法树库建设过程中形成了树库加工规范和句法分析器、树库校对等计算机软件工具。 补充1000万字新语料。根据语料库中当代语料和科技经济类语料偏少的现状,以科技、经济类语料为主补充了1000万字新语料。 研究成果 7000万字带有分词和词性标注的汉语语料; 语料切分标注的相关规范; 1000万字新语料,生语料库规模达到1亿字; 词语切分和词性标注软件,切分标注的精度达到了国内领先水平; 100万字(5万句)句法树库; 汉语树库加工规范; 语料库校对加工软件; 语料检索工具软件; 语料统计工具软件; 语料库管理软件系统; 相关研究论文。 三、研究成果的创新点、先进性 当前,依赖计算机的大型语料库对语言研究的重要性日益显著,建立一个能全面反映语言事实、蕴涵丰富语言信息的大规模语料库已成为语言学界和信息处理学界共同关注的课题。语料库建设是一项长期而艰巨的任务,从词语切分、词性标注到句法标注再到语义标注,环环相扣。我们希望建立一个尽可能全面、客观地反映汉语事实,适应语言信息处理及语言学家研究需要的现代汉语语料库并开发行之有效的软件工具和创制一套行之有效的工程化方法。 科研成果在多个方面体现了创新性和先进性 该语料库样本的平衡性,体现在历时的时间平衡和共时的分布平衡等方面; 该语料库是目前最大规模的现代汉语标注语料库,时间跨度最大、类别分布最广; 语料库加工、检索、统计、管理形成了一整套完整的软件系统,等等。 国家语委现代汉语语料库加工遵循国内外信息处理领域通用的语料库加工路线,

您可能关注的文档

文档评论(0)

锦绣中华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档