大规模现代汉语标注语料库的加工规范1俞士汶朱学锋段慧明摘要.DOCVIP

下载本文档

3
0
约9.56千字
约 8页
2019-03-05 发布于天津
举报
版权申诉

大规模现代汉语标注语料库的加工规范1俞士汶朱学锋段慧明摘要.DOC

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模现代汉语标注语料库的加工规范HYPERLINK \l _ftn1[1] 俞士汶朱学锋段慧明摘要：北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上，又在实施另一项大型语言工程，即对大规模的现代汉语原始语料进行多级加工，目前的加工项目包括词语切分、词性标注（包括动词和形容词的特殊用法），并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务，而且质量很高。要建成高质量的标注语料库，必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。关键词：现代汉语标注语料库词语切分词性标注现代汉语语法信息词典加工规范 The Guideline for Segmentation and Part-Of-Speech Tagging on Very Large Scale Corpus of Contemporary Chinese Yu Shiwen Zhu Xuefeng Duan Huiming Abstract:The Institute of Computational Linguistics of Peking University is developing a very large-scale contemporary Chinese corpus segmented and with many tags based on the owned resources, e.g. the Grammatical Knowledge-base of Contemporary Chinese. There are about 40 tags in the tag set. It contains common Part-Of-Speech tags, special usage tags of verbs and adjectives, proper noun, place name of phrase type, organization name of phrase type and so on. The scale of the corpus is about 27 millions Chinese characters. The Institute of Computational Linguistics of PKU has completed the task of 14 millions characters and the processing quality is very high. It is necessary to work out a complete guideline of corpus processing to obtain high quality tagged corpus. This paper introduces the principles of making out the guideline and the experiences of carrying out the guideline. Keywords:Contemporary Chinese Tagged Corpus, Segmentation, Part-Of-Speech Tagging, The Grammatical Knowledge-base of Contemporary Chinese, processing guidline 一、引言笔者认为，为了提高自然语言处理的智能化水平，需要给计算机装备一个综合型的语言知识库。北京大学计算语言学研究所积十多年之努力开发的《现代汉语语法信息词典》[1]（以下简称《语法信息词典》）是这个语言知识库的主要组成部分。《语法信息词典》中的知识是由研制者根据自己对语言现象的观察、领悟并参照前人的语言学著作、词典、语料而整理的。这种知识还不能充分满足要求，多数颗粒度较大，也难以保证与真实语料完全一致。计算机硬件与软件的进步为自然语言处理技术的发展提供了广阔的新天地。现在,大规模的电子文本语料垂手可得。机器（更准确地说，人利用计算机）可以直接从大规模的语料中学习到处理语言的大量知识。例如，对大量语料进行简单的统计，就能得到“汉字的使用频度”。计算两个汉字在语料中出现的“互信息”就能发现“词”，但原始语料的利用价值或者说无指导的机器学习的潜力是有局限性的。人们常说“良师出高徒”。如果在原始语料中预先注入一些语言学知识，譬如根据人的认识将一部分语料按词切分好并标注上词性，然后