- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模现代汉语标注语料库的加工规范HYPERLINK \l _ftn1[1]
俞士汶 朱学锋 段慧明
摘要:北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法),并标出专有名词以及短语型的地名、机构名称等等。
规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。
要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
关键词:现代汉语标注语料库 词语切分 词性标注 现代汉语语法信息词典 加工规范
The Guideline for Segmentation and Part-Of-Speech Tagging
on Very Large Scale Corpus of Contemporary Chinese
Yu Shiwen Zhu Xuefeng Duan Huiming
Abstract:The Institute of Computational Linguistics of Peking University is developing a very large-scale contemporary Chinese corpus segmented and with many tags based on the owned resources, e.g. the Grammatical Knowledge-base of Contemporary Chinese. There are about 40 tags in the tag set. It contains common Part-Of-Speech tags, special usage tags of verbs and adjectives, proper noun, place name of phrase type, organization name of phrase type and so on.
The scale of the corpus is about 27 millions Chinese characters. The Institute of Computational Linguistics of PKU has completed the task of 14 millions characters and the processing quality is very high.
It is necessary to work out a complete guideline of corpus processing to obtain high quality tagged corpus. This paper introduces the principles of making out the guideline and the experiences of carrying out the guideline.
Keywords:Contemporary Chinese Tagged Corpus, Segmentation, Part-Of-Speech Tagging,
The Grammatical Knowledge-base of Contemporary Chinese, processing guidline
一、引言
笔者认为,为了提高自然语言处理的智能化水平,需要给计算机装备一个综合型的语言知识库。北京大学计算语言学研究所积十多年之努力开发的《现代汉语语法信息词典》[1](以下简称《语法信息词典》)是这个语言知识库的主要组成部分。
《语法信息词典》中的知识是由研制者根据自己对语言现象的观察、领悟并参照前人的语言学著作、词典、语料而整理的。这种知识还不能充分满足要求,多数颗粒度较大,也难以保证与真实语料完全一致。计算机硬件与软件的进步为自然语言处理技术的发展提供了广阔的新天地。现在,大规模的电子文本语料垂手可得。机器(更准确地说,人利用计算机)可以直接从大规模的语料中学习到处理语言的大量知识。例如,对大量语料进行简单的统计,就能得到“汉字的使用频度”。计算两个汉字在语料中出现的“互信息”就能发现“词”,但原始语料的利用价值或者说无指导的机器学习的潜力是有局限性的。人们常说“良师出高徒”。如果在原始语料中预先注入一些语言学知识,譬如根据人的认识将一部分语料按词切分好并标注上词性,然后
您可能关注的文档
最近下载
- Unit+4+Section+A+2a-2e课件+2025-2026学年人教版(2024)英语八年级上册.pptx VIP
- 小学总务处主任述职报告PPT.pptx VIP
- Unit 4 Section A (1a~2e) 课件2025-2026学年人教版八年级英语.pptx VIP
- 世界的地形课件七年级地理上学期人教版1.pptx
- 世界的地形课件七年级地理上学期人教版2.pptx VIP
- (正式版)DB15∕T 2748-2022 《绿色电力应用评价方法》.docx VIP
- 人教版(2025) 必修第一册 Unit 2 Travelling Around Reading and Thinking课文解析&逐句翻译课件(共17张PPT))(含音频+视频).pptx VIP
- 制造业采购付款制度及流程设计.docx VIP
- 继承优良传统弘扬中国精神 (第二版).pptx VIP
- 含硅废渣综合利用项目环评(新版环评)环境影响报告表.doc
文档评论(0)