- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语语料库基本加工规格说明书-中文语言资源联盟.doc
北京大学现代汉语语料库基本加工规范
俞士汶 段慧明 朱学锋 孙斌
(北京大学计算机系,北京大学计算语言学研究所 北京 100871)
摘要:北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
关键词:现代汉语;语料库;词语切分;词性标注;规范
中图分类号:TP391
The Basic Processing of Contemporary Chinese Corpus at Peking University
SPECIFICATION
YU Shi-wen DUAN Hui-ming ZHU Xue-feng Bing SWEN
(Institute of Computational Linguistics, Peking University, Beijing, 100871)
Abstract: The Institute of Computational Linguistics, Peking University has completed the basic processing of a contemporary Chinese corpus that has 27 million Chinese Characters. In addition to word segmentation and part-of-speech tagging, the processing involves the tagging of proper nouns (person names, place names, organization names and so on), morpheme subcategories and the special usages of verbs and adjectives. The success of this large-scale language engineering is attributed to the SPECIFICATION, which had been made beforehand and was being perfected while in use. We are hereby making an introduction to the SPECIFICATION through this publication, thus inviting the comments from all the experts and our colleagues for the improvement of it.
Keywords: contemporary Chinese; corpus; word segmentation; part-of-speech tagging; specification
⒈ 前言
关于汉语语料库的全面情况,冯志伟教授的文章已有详细介绍[1]。本文只介绍北京大学计算语言学研究所的工作(以下简称计算语言所)。计算语言所从1992年开始汉语语料库的多级加工研究,历时已有10年,也积累了一些成果[2,3,4]。最令人瞩目的成果是《人民日报》标注语料库。该语料库包含《人民日报》1998年全年2600多万字的语料,对全部语料已完成词语切分和词性标注等基本加工。全部加工结果均已通过合作单位Fujitsu的严格验收。由于1个月的200多万字的加工语料早已在网上公布,可免费下载[5],半年的1300万字的加
_______________________________________________________________________________
收稿日期:2002-2-20(2002年5月21日修订)
基金项目:国家自然基973项目G1998030507-4、863项目2001AA114040、北大985
作者信息:俞士汶,男,1938年12月生,教授;段慧明,1957年12月生,女,高工;朱学锋,1937年12月生,女,副教授;孙斌,1968年10月生,博士后;4人的主要研究方向:计算语言学
工语料也开始向业界提供,这项成果的影响正逐步扩大。计算语言所另外还有100多万字语料不仅完成了基本加工,还加注了汉语拼音。
这项庞大的语言工程之所以能顺利展开并按计划取得成果,因素当然很多
您可能关注的文档
- 涵盖职业类别.ppt
- 淄博中国陶瓷馆导游词.doc
- 混合式二相步进电机驱动器.doc
- 渗碳钢成分——wC).ppt
- 湖南中医药高等专科学校实验仪器设备采购招标.doc
- 湖南师范大学本科生毕业论文设计撰写规范-德轩教育.doc
- 湖南科技大学本科生毕业设计论文)-湖南科技大学教务处.doc
- 源自GBT131-2006机电工程学院机械系简化注法.ppt
- 滑坡位移的多模态支持向量机模型预测-岩土力学.PDF
- 潮州市监管的其他重点耗能企业.doc
- 2024自考专业(计算机信息管理)模拟题库(满分必刷)附答案详解.docx
- 2024自考专业(计算机信息管理)模考模拟试题【最新】附答案详解.docx
- 2024自考专业(计算机信息管理)模拟题库(满分必刷)附答案详解.docx
- 2024自考专业(计算机信息管理)模拟题库(名校卷)附答案详解.docx
- 2024自考专业(计算机信息管理)模考模拟试题及参考答案详解(培优).docx
- 2024自考专业(计算机信息管理)模拟题库附参考答案详解(考试直接用).docx
- 2024自考专业(计算机信息管理)模考模拟试题【能力提升】附答案详解.docx
- 2024自考专业(计算机信息管理)模拟题库(精选题)附答案详解.docx
- 2024自考专业(计算机信息管理)模拟题库附答案详解(黄金题型).docx
- 2024自考专业(计算机信息管理)模考模拟试题及参考答案详解【新】.docx
文档评论(0)