现代汉语重叠式的辨认及统计分析.pdfVIP

  • 23
  • 0
  • 约8.05万字
  • 约 67页
  • 2018-06-25 发布于贵州
  • 举报
现代汉语重叠式的辨认及统计分析

摘要 嘲鼎一 摘要 现代汉语形态缺乏,但重叠式还是比较丰富的。根据大规模语料调查显示,重 叠式的能产性和派生性极强,利用重叠形式创造出的重叠新词数量在现代汉语中的 比例仍然呈上升趋势,因此对重叠式的研究不能仅仅局限于语言理论的层面。本文 将研究的着力点放在了语料库中的重叠式,进行了重叠式的抽取、切分不一致的比 较、重叠式识别和统计等一系列研究。 本文首先对重叠式进行了较为系统的考察,包括与重叠式相关的几个概念的辨 析,汉语词典和三大词表中重叠式的分布等情况,为下文识别和分析重叠式打下理 论基础。通过对《现代汉语词典》及词表进行统计分析,从中发现一些语言学现象, 并对《现汉》中重叠式的收录问题进行了初步探讨,提出了一些改进的意见。 其次本文对重叠式的切分错误统计及分析,该部分研究的对象有两个,一个是 现有的分词语料库,另一个是成熟的分词软件。分别对它们的重叠式切分错误进行 统计,并试图分析其切分错误的原因。文中以翔实的数据说明,重叠式切分上,流 行的分词软件在错误率高达8%至48%,经人工校对后的分词语料库错误率也达到1% 至11%(均依重叠类型和语料类型而有不同)。 本文通过引入正则表达式和CRF统计模型进行重叠式的识别研究。重叠式的识 别工作主要有三个步骤,一是利用正则表达式提取重叠式的候选,二是利用词表过 滤辅以人工校对的方法对重叠式候选进行筛选,三是利用CRF模型对重叠式的所属 类型进行判定。识别结果表明,利用CRF对各种重叠式的判定正确率都能达到95% 左右,是一个相当不错的结果。 文章最后利用前文研究产生的数据,对重叠式进行统计分析,试图分析其中隐 藏的语言学现象。我们发现重叠现象与语体的庄重程度和语体语言的主观性程度有 密切的关系,基式频率高于重叠式频率,不同重叠式之间的频率也有明显差异等等。 这些规律的发现,对于语言学本体的研究有很好的参考价值。 本文的研究启发我们从新的角度研究重叠式,提高了我们对重叠式的认识,在 一定程度上深化了重叠式的研究。 关键词:重叠式,识别,cRF,统计,语体 Abstracf Abstract ModemChineseis1ackof me is fornl,but reduplicationquite BaSedon showsthattheuseof cationtocreatenewwordsin 1arge-scale co印us redu纠j the ofmod锄Chinesestillontherise.Sotheworksonme caIl vocabulary re(1uplication not and aniclewilllookinto廿1eof belimitedtoresearchtheoreticalliteramre.This eyes the in a11dworksfor reduplicationco印ora, ex的ction,segmentedcomp撕son, alldas嘶esofwork about reco印ition,statistics reduplication. Theanicle矗rstworkson mefeaturesofmodemChinese anal)rzing reduplication andt

文档评论(0)

1亿VIP精品文档

相关文档