- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
10目标与进展.doc-ICL,PKU-北京大学
“现代汉语词的语法属性描述研究”的目标与进展
俞士汶 朱学锋
一、引言
作为国家社科基金语言学科“九五”重大课题“信息处理用现代汉语词汇研究”的一个子课题,“词的语法属性描述研究”既要继承和扩展北大计算语言学研究所的一项基础研究“现代汉语语法信息词典”的成果,又要有所创新和突破,将词的语法属性描述研究提到一个新高度。这项研究的基础性和重要性是不言而喻的。不过,社科基金的支持力度毕竟有限,要使研究工作达到一定的规模,体现计算语言学的特色,同时赶上语言信息处理技术发展的需要,这项基础研究课题又必须同具体的语言工程相结合。本文介绍两年来北大计算语言学研究所沿着这个方向努力所取得的进展,同时也描述本子课题期望达到的目标。
二、《现代汉语语法信息词典》的发展
《现代汉语语法信息词典》是本子课题的重要基础。北京大学计算语言学研究所和北大中文系合作,积10年之努力,于1995年底完成了“七五”、“八五”国家科技攻关项目“现代汉语语法信息词典”的研制任务。这部电子词典的规格说明书在《中文信息学报》1996年第2期上发表,更详细地介绍这部词典的专著《现代汉语语法信息词典详解》[1]于1998年出版,它在汉语信息处理领域的影响已经显现出来[2]。从1997年7月至1999年7月,北大计算语言所又完成了词典的扩充。这既是一项语言工程的成果,又完全适应本子课题研究工作的需要(以下称1997年以前的版本为原版,称1999年7月以后的为扩充版)。
2.1 词典规模的扩大
同原版相比较,扩充版实际增加了22000多词语,同时更加明确了选词标准。1997年版收录的51000多词语对中文真实文本已有很高的覆盖率,再增选2万多词并不是一件轻而易举的事。为了避免将大量的自由短语也作为词吸纳进来,北大计算语言所遵循了以下原则:若干汉字的组合是一个词,而其中的字有不是词,则将该组合可作为一个词语收进扩充版;两个以上的单纯词可以组合成一个较大的单位,如果该单位作为一个词,它的词性不能由组合结构推导出来,这个词也可收进扩充版;如果复合词的意义不是组成成分意义的简单叠加,这个复合词也可收进扩充版。
为了给未定义词自动识别和合成词构造规律研究提供更多的知识,扩充版收入了国标GB2312中的全部汉字,除作为词收入各个词类库的以外,其他的汉字均收入语素库。现在,语素库共有7142个记录。原词典规格说明书关于语素的专有语法属性只规定了1项,即语素的类别。在扩充版中大幅度增加了语素的属性字段[3]。
其他词类的语法属性也有增加和调整。名词、方位词、动词、形容词、副词各增加了一个属性字段。将名词的子类作了调整。由原来7个增为8个,即增加了“过程名词”(只能与动量词或时量词搭配的名词)。
2.2 语法属性描述的质量保证
质量是词典的生命。研制者将把不断提高词典的质量作为长期的任务。利用出版《现代汉语语法信息词典详解》的大好机会,作者对作为样例的1万词语的全部语法属性极其认真地又审查了一遍,其最终成果已吸收到扩充版中。对于新增加的22000多词语的归类及各项语法属性的描述,课题组除继续坚持研制原词典时采取的各项质量保证措施外,还按照出书的标准增加了释义和实例。
扩充版还实现了7万词语兼类的自封闭:若任意词库X中有词W且兼类字段填了“YZ”,则在Y词库与Z词库中,也一定有W,且兼类字段的信息一定是ZX与XY。
三、《现代汉语语法信息词典》精品版的规划
适应学校及某些基础研究的需要,本子课题有一个制作《现代汉语语法信息词典》精品版的规划,其目标是选择2万到3万常用的词,筛选一些最重要的语法属性,并保证属性描述的高准确度。
1999年初,清华大学孙茂松副教授将《现代汉语词典》、北大的《现代汉语语法信息词典》(原版)和李行健先生正在编纂的《现代汉语规范词典》的词条进行了比对,得到三者共同的词条约3万条。北大计算语言所子课题组还从香港城市大学得到一个8万词的词表,又从台湾中研院得到另一个也有8万词的词表,并将大陆共同的3万词条同香港、台湾的词表进行了比对。得到一个两岸三地的通用词表19000多词。这个事实证实了1997年夏季课题论证会议专家所作的全球各地华人的共同词汇约两三万条的估计是正确的。这就为词的精选提供了可靠的根据。本子课题组还对《现代汉语语法信息词典》原有规格说明书中的语法属性字段进行了筛选,形成了《现代汉语语法信息词典(98精品版)的规格说明书》(草案)。另一个子课题“现代汉语词类标记集规范”已经出了第3稿。该规范的“细类”完全能影射到《现代汉语语法信息词典》的相应属性。这就为进一步挑选更重要的属性提供了重要的参考意见。另外,关于语法属性的选择也兼顾了词的概率语法属性研究的需要。
四、概率语法属性描述研究
尽管在词的语
文档评论(0)