- 3
- 0
- 约3.47千字
- 约 4页
- 2021-01-02 发布于四川
- 举报
精品文档,助力人生,欢迎关注小编!
基于《汉语语义构词数据库》的D+A双音合成词研究
摘 要:以《汉语语义构词数据库》为基础,采用定性和定量相结合及演绎与归纳相结合的方法,对数据库中语义类为D类和A类的字位所构成的双音合成词进行研究,得出D+A构成的双音合成词的义类分布情况、特点及形成这种特点的原因,以期有助于进一步研究汉语语义构词规律。
关键词:字位 词义 义类 语义构词
一、前言
汉语构词法研究是汉语词汇学研究的一部分,也是汉语语法学较关注的问题。随着中文信息处理的发展,为使计算机更好地处理中文信息,人们对汉语构词法的研究又有了更多需求,也取得了许多研究成果。总的看来,学者们多着眼于语法形式研究构词法,揭示词的结构类型、构词的语素类型与词性之间的关系等。而基于语义的汉语构词法研究近年来刚起步,虽然也取得了一些成果,但总的说这些成果还不够细致。因此,面向信息处理的以大规模标注语料库为基础的汉语语义构词规则的研究和总结势在必行。
基于此形势,亢世勇教授首先按《同义词词林》的语义分类体系给“国标GB2312”定义的6763个汉字衍生出的17430个字位(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义)分类,录入数据库,建成了《汉字义类信息库》;通过统计说明字、词语义分布情况及其对应关系;又以《同义词词林》为基础,结合《现代汉语词典》和《新词语大词典》,从中选取了52366个双音合成词,用计算机结合《汉字义类信息库》的信息给所选词的每个字标注义类标记和简单释义;最后,经人工校对,建成了《汉语语义构词数据库》(以下称数据库)。数据库采用以下语义类标记大类:A.人、B.物、C.时间与空间、D.抽象事物、E.特征、F.动作、G.心理活动、H.活动、I.现象与状态、J.关联、K.助语、L.敬语。在此工作的基础上再归纳,总结出了汉语双音合成词语义构词的具体规则,即同类规则、后向型规则、前向型规则和无向型规则。
我们知道,表抽象事物的词比表具体事物的词难理解,所以本文首先锁定了D类字位为研究对象。而数据库统计结果显示,多数字位都与人有关,所以对A类字位的研究也很有意义。
二、D+A双音合成词的义类分布
(一)大类
经统计,D+A构成的双音合成词共467个。其中,词义属于A人的有412个,占88.22%;B物的有6个,占1.28%;C时间与空间的有4个,占0.88%;D抽象事物的有31个,占6.64%;E特征的有7个,占1.50%;H活动的有3个,占0.64%;I现象与状态的有3个,占0.64%;J关联的有1个,占0.21%。按上述情况,可知:A人(412)>D抽象事物(31)>E特征(7)>B物(6)>C时空(4)>H活动(3)和I现象与状态(3)>J关联(1)。即,A类字位构词最多,J类字位则最少。而F类、G类、K类与L类字位则无。
(二)中类
以上是各标记大类在D+A构成的双音合成词中所占比例情况,下面进一步研究各大类下属的中类在该大类所占比例情况:
1.A中类在A大类中所占比例:词义属于Aa泛称的有15个,如国民,占3.64%;Ab男女老少的有7个,如报童,占1.70%;Ac体态的有6个,如天人,占1.46%;Ad籍属的有6个,如藏民,占1.46%;Ae职业的有76个,如戏子,占18.45%;Af身份的有73个,如衙役,占17.72%;Ag状况的有18个,如伤兵,占4.37%;Ah亲人、眷属的有57个,如长女,占13.83%;Ai辈次的有9个,如大婶,占2.18%;Aj关系的有57个,如情侣,占13.83%;Ak品性的有14个,如圣贤,占3.40%;Al才识的有41个,如文豪,占9.95%;Am信仰的有11个,如教皇,占2.67%;An丑类的有22个,如罪犯,占5.34%。可见,Ae在A类中所占比例最大,Ac和Ad所占比例最小。
2.B中类在B大类中所占比例:词义属于Bd天体的有阴宗一词,占16.67%;Bf气象的有2个,如京官,占33.33%;Bi动物的有2个,如元夫,占33.33%;Bp用品的有神主一词,占16.67%。
3.C中类在C大类中所占比例:词义属于Ca时间的有工夫一词,占25%;Cb空间的有3个,如幅员,占75%。因此,表示空间的词多于表示时间的词。
4.D中类在D大类中所占比例:词义分别属于Da事情、情况,Dd性能,De性格、才能,Df意识,Dj经济,Dk文教,Dm机构的都只1个,分别是:兆朕、户口、头角、意匠、法郎、卷宗、票庄,各占3.23%;Dh臆想物的有17个,如仙人,占54.84%;Di社会、政法的有5个,如义兵,占16.13%;Dn数量、单位的有2个,它们
原创力文档

文档评论(0)