- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语复旬语料库的建设与利用①
邢福义姚双云
华中师范大学语言与语言教育研究中心 武汉430079
fyxing@mail.ccnu.edu.Oilysy@mail.CCnU.edu.cn
摘要:复句在汉语句法分析中具有重要地位,要推动复句研究就有必要建设
一个专用语料库。“汉语复句语料库”是进行复句专题研究的大平台,是汉语本体
领域和中文信息处理领域的一项重要资源。本文讨论的内容主要包括了三个部分:
二、复句研究的重要意义;二、“汉语复句语料库”的建设情况,三、“汉语复旬语
料库”的利用。
关键词:汉语复句语料库,复旬,关系词,中文信息处理
复句研究的重要意义
在自然语言处理中,语料库建设的重要性日益凸现出来了。要满足汉语研究
的不同要求,推动中文信息处理的深入发展,就必须建设各种各样的汉语语料库。
不仅要重视现代汉语平衡语料库的建设,也要重视汉语历时语料库的建设,还要
重视面向特定领域的各种专用语料库的建设。专用语料库建设的重要意义在于它
可以推动专题研究并且带动相关研究。
在汉语句法体系中,复句具有重要的地位。要真正掌握汉语的句法规律,不
能孤立地研究小句,而应该重视复句的研究。在“小句中枢”理论体系中,复旬是
小句联结的一种重要的语法实体。弄清了复句的关联机制,下可促进对小句、短
语乃至词的研究,上可促进句群、段落和篇章的研究。复旬的重要性不仅体现在
① 本课题属于华中师范大学重点建设学科项目“小句中枢说在汉语与临界领域研究中的应
用与验证”的一个分支项目。语料库的研制中,使用了中科院计算语言所张华平、刘群先生开发
的FreelCTCI.AS自动分词软件,使用了《人民日报》和《长江日报》的部分语料。项目开发过程
中,胡金柱教授、汪国胜教授做了大量t作,语言研究所和计算机科学系的肖明、罗进军、沈
威,杜超华、罗旋、尹蔚、李琼、俞小娟等研究生付出了辛勤的劳动。在此一并致谢。
它的语法地位上,还表现在它的使用数量上。汉语中,复句所占的比例非常高。 第五部分
研究复句,既可以发现许多复旬关联的规律,还可以发掘出更多的关于小句的句
法特征。复句问题解决了,许多句法问题就会相应地解决。解决复句问题应该以
有标复句为重点,因为有标复旬的关系词可以作为形式标记,便于计算机进行识
别和计算。以复句为突破口进行汉语的句法分析,是一种策略。许嘉璐先生
(2000)指出,“以词义为基础,与句法规则结合,以句为突破的单位”是中文信息
处理的“蹊径”。
of
华中师范大学语言与语言教育研究中心开发的“汉语复句语料库(theCorpus
Chinese 知识表一币和资源及平台建设
Compound
建设以“小句中枢”理论为背景,它将成为汉语本体领域和中文信息处理领域的一
项重要资源。
二,“汉语复句语料库”的建设
(一)“汉语复句语料库”规模、语料来源和结构体系
库的语料来源以《人民日报》和《长江H报》为主,同时也有一部分录自现当代文学
作品。“汉语复句语料库”主要由5个部分组成,分别为:(1)复句语料库研究软件
系统;(2)复旬语料库标注符号集;(3)关系词句法信息库;(4)复句句法规则库;
(5)复句数据库。
(二)语料库标注符号集、标注内容和标注样例
本语料库目前已经制定了4套标注符号集,分别为“关系词标注符号集”、“复
句类别标注符号集”、“层次关系标注符号集”和“短语标注符号集”。
标注工作是在分词的基础上进行的,标注前进行分词预处理。使用的分词工
具是中科院计算语言所张华平、刘群先生开发的自动分词软件FreeICTCLAS。标
注内容包括关系词的类别标注、关系词连接项的功能标注、分句的层次标注、复
句的句式类别的标注等。
下面是一个完整的标注样例:
(1)(fiyg(Xjl
Ewx缺乏/v必要/a的/u可行性/n论证/v,/w]vp)IYg((Xj2尽管/ccrbEzx
rb(xj3也/derb
科技/n含量/n]npEwx很/d低/a,/w]ap)0 Ewx要/v仓促/
a上马/v,/w浪fi/v资gt/n和/c人力/n。/w]vp)))
文档评论(0)