- 23
- 0
- 约8.05万字
- 约 67页
- 2018-06-25 发布于贵州
- 举报
现代汉语重叠式的辨认及统计分析
摘要 嘲鼎一
摘要
现代汉语形态缺乏,但重叠式还是比较丰富的。根据大规模语料调查显示,重
叠式的能产性和派生性极强,利用重叠形式创造出的重叠新词数量在现代汉语中的
比例仍然呈上升趋势,因此对重叠式的研究不能仅仅局限于语言理论的层面。本文
将研究的着力点放在了语料库中的重叠式,进行了重叠式的抽取、切分不一致的比
较、重叠式识别和统计等一系列研究。
本文首先对重叠式进行了较为系统的考察,包括与重叠式相关的几个概念的辨
析,汉语词典和三大词表中重叠式的分布等情况,为下文识别和分析重叠式打下理
论基础。通过对《现代汉语词典》及词表进行统计分析,从中发现一些语言学现象,
并对《现汉》中重叠式的收录问题进行了初步探讨,提出了一些改进的意见。
其次本文对重叠式的切分错误统计及分析,该部分研究的对象有两个,一个是
现有的分词语料库,另一个是成熟的分词软件。分别对它们的重叠式切分错误进行
统计,并试图分析其切分错误的原因。文中以翔实的数据说明,重叠式切分上,流
行的分词软件在错误率高达8%至48%,经人工校对后的分词语料库错误率也达到1%
至11%(均依重叠类型和语料类型而有不同)。
本文通过引入正则表达式和CRF统计模型进行重叠式的识别研究。重叠式的识
别工作主要有三个步骤,一是利用正则表达式提取重叠式的候选,二是利用词表过
滤辅以人工校对的方法对重叠式候选进行筛选,三是利用CRF模型对重叠式的所属
类型进行判定。识别结果表明,利用CRF对各种重叠式的判定正确率都能达到95%
左右,是一个相当不错的结果。
文章最后利用前文研究产生的数据,对重叠式进行统计分析,试图分析其中隐
藏的语言学现象。我们发现重叠现象与语体的庄重程度和语体语言的主观性程度有
密切的关系,基式频率高于重叠式频率,不同重叠式之间的频率也有明显差异等等。
这些规律的发现,对于语言学本体的研究有很好的参考价值。
本文的研究启发我们从新的角度研究重叠式,提高了我们对重叠式的认识,在
一定程度上深化了重叠式的研究。
关键词:重叠式,识别,cRF,统计,语体
Abstracf
Abstract
ModemChineseis1ackof me is
fornl,but
reduplicationquite
BaSedon showsthattheuseof cationtocreatenewwordsin
1arge-scale
co印us redu纠j
the ofmod锄Chinesestillontherise.Sotheworksonme caIl
vocabulary re(1uplication
not and aniclewilllookinto廿1eof
belimitedtoresearchtheoreticalliteramre.This eyes
the in a11dworksfor
reduplicationco印ora, ex的ction,segmentedcomp撕son,
alldas嘶esofwork
about
reco印ition,statistics reduplication.
Theanicle矗rstworkson mefeaturesofmodemChinese
anal)rzing reduplication
andt
您可能关注的文档
最近下载
- 2025年无人机驾驶员执照欧洲(EASA)无人机法规对比专题试卷及解析.pdf VIP
- 2025年AWS认证DedicatedHosts支持的AMI类型与启动模式专题试卷及解析.pdf VIP
- 美容院服务合同(2025年最新规范).docx
- 上海市住建委《上海市建筑和装饰工程预算定额沪建标定〔2025〕1162号.docx VIP
- 2025年无人机驾驶员执照飞行监管责任体系专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照悬停失控应急处置流程专题试卷及解析.pdf VIP
- 2025年金融风险管理师利率风险结构易错题解析专题试卷及解析.pdf VIP
- 《最优控制与状态估计6》-公开课件.ppt VIP
- 标准图集-22G101-3 混凝土结构施工图平面整体表示方法制图规则和构造详图-独立基础、条形基础、筏形基础、桩基础.pdf VIP
- 2024黑龙江林业职业技术学院单招《数学》通关题库及答案详解【各地真题】.docx VIP
原创力文档

文档评论(0)