基于汉语语义构词数据库DA双音合成词研究.docVIP

基于汉语语义构词数据库DA双音合成词研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于汉语语义构词数据库DA双音合成词研究

基于汉语语义构词数据库DA双音合成词研究   摘 要:以《汉语语义构词数据库》为基础,采用定性和定量相结合及演绎与归纳相结合的方法,对数据库中语义类为D类和A类的字位所构成的双音合成词进行研究,得出D+A构成的双音合成词的义类分布情况、特点及形成这种特点的原因,以期有助于进一步研究汉语语义构词规律。   关键词:字位 词义 义类 语义构词      一、前言      汉语构词法研究是汉语词汇学研究的一部分,也是汉语语法学较关注的问题。随着中文信息处理的发展,为使计算机更好地处理中文信息,人们对汉语构词法的研究又有了更多需求,也取得了许多研究成果。总的看来,学者们多着眼于语法形式研究构词法,揭示词的结构类型、构词的语素类型与词性之间的关系等。而基于语义的汉语构词法研究近年来刚起步,虽然也取得了一些成果,但总的说这些成果还不够细致。因此,面向信息处理的以大规模标注语料库为基础的汉语语义构词规则的研究和总结势在必行。   基于此形势,亢世勇教授首先按《同义词词林》的语义分类体系给“国标GB2312”定义的6763个汉字衍生出的17430个字位(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义)分类,录入数据库,建成了《汉字义类信息库》;通过统计说明字、词语义分布情况及其对应关系;又以《同义词词林》为基础,结合《现代汉语词典》和《新词语大词典》,从中选取了52366个双音合成词,用计算机结合《汉字义类信息库》的信息给所选词的每个字标注义类标记和简单释义;最后,经人工校对,建成了《汉语语义构词数据库》(以下称数据库)。数据库采用以下语义类标记大类:A.人、B.物、C.时间与空间、D.抽象事物、E.特征、F.动作、G.心理活动、H.活动、I.现象与状态、J.关联、K.助语、L.敬语。在此工作的基础上再归纳,总结出了汉语双音合成词语义构词的具体规则,即同类规则、后向型规则、前向型规则和无向型规则。   我们知道,表抽象事物的词比表具体事物的词难理解,所以本文首先锁定了D类字位为研究对象。而数据库统计结果显示,多数字位都与人有关,所以对A类字位的研究也很有意义。      二、D+A双音合成词的义类分布      (一)大类   经统计,D+A构成的双音合成词共467个。其中,词义属于A人的有412个,占88.22%;B物的有6个,占1.28%;C时间与空间的有4个,占0.88%;D抽象事物的有31个,占6.64%;E特征的有7个,占1.50%;H活动的有3个,占0.64%;I现象与状态的有3个,占0.64%;J关联的有1个,占0.21%。按上述情况,可知:A人(412)>D抽象事物(31)>E特征(7)>B物(6)>C时空(4)>H活动(3)和I现象与状态(3)>J关联(1)。即,A类字位构词最多,J类字位则最少。而F类、G类、K类与L类字位则无。   (二)中类   以上是各标记大类在D+A构成的双音合成词中所占比例情况,下面进一步研究各大类下属的中类在该大类所占比例情况:   1.A中类在A大类中所占比例:词义属于Aa泛称的有15个,如国民,占3.64%;Ab男女老少的有7个,如报童,占1.70%;Ac体态的有6个,如天人,占1.46%;Ad籍属的有6个,如藏民,占1.46%;Ae职业的有76个,如戏子,占18.45%;Af身份的有73个,如衙役,占17.72%;Ag状况的有18个,如伤兵,占4.37%;Ah亲人、眷属的有57个,如长女,占13.83%;Ai辈次的有9个,如大婶,占2.18%;Aj关系的有57个,如情侣,占13.83%;Ak品性的有14个,如圣贤,占3.40%;Al才识的有41个,如文豪,占9.95%;Am信仰的有11个,如教皇,占2.67%;An丑类的有22个,如罪犯,占5.34%。可见,Ae在A类中所占比例最大,Ac和Ad所占比例最小。   2.B中类在B大类中所占比例:词义属于Bd天体的有阴宗一词,占16.67%;Bf气象的有2个,如京官,占33.33%;Bi动物的有2个,如元夫,占33.33%;Bp用品的有神主一词,占16.67%。   3.C中类在C大类中所占比例:词义属于Ca时间的有工夫一词,占25%;Cb空间的有3个,如幅员,占75%。因此,表示空间的词多于表示时间的词。   4.D中类在D大类中所占比例:词义分别属于Da事情、情况,Dd性能,De性格、才能,Df意识,Dj经济,Dk文教,Dm机构的都只1个,分别是:兆朕、户口、头角、意匠、法郎、卷宗、票庄,各占3.23%;Dh臆想物的有17个,如仙人,占54.84%;Di社会、政法的有5个,如义兵,占16.13%;Dn数量、单位的有2个,它们是:家口、人口,占6.45%。因此,词义属

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档