分词语料库中四字格的切分和识别分析-segmentation and identification analysis of four - character case in participle corpus.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分词语料库中四字格的切分和识别分析-segmentation and identification analysis of four - character case in participle corpus
PAGE
PAGE 10
1.1 课题的提出
第一章 引言
1.1.1 现代汉语中四字格的地位和特点
“四字格”这个术语最早源于陆志韦先生《汉语的并立四字格》一文。1986 年,王德 春先生主编的《修辞学词典》收录了“四字格”这一术语。1988 年,胡裕树、张斌几位先 生主编的《语法修辞词典》也收录了“四字格”这个术语。
“四字格”是指由四个字组成的一种语言格式。在汉语言文学发展的历史中,四字格的 形式在汉语使用中起非常重要的作用, 汉语的四字格形式在语音、语法、词汇、构词、语 用、修辞等方面都对汉语产生了深刻的影响。“四字格”结构灵活多变,它几乎能配置任何 一种语法关系,满足结构变化的需要;四字格熟语和成语内涵丰富、深刻,表达了特定的 思想含义;利用四字格句组成排比句,可以使句子对称匀整,能够增强语言的表现力、感 染力。从语音的角度分析, 作为以声调来区分意义的语言, 汉语本身节奏感就很强, 而四 字格结构更是音节清晰, 富于变化, 抑扬顿挫,正如吕叔湘先生所说,“四音节好像一直都 是汉语使用者非常爱好的语音段落”。“四字格”不仅在字数、结构、音律等方面有着独特 的优势,它还有着深厚的文化土壤,从老子的“千里之行,始于足下”到孔子的“学而不 厌,诲人不倦”,古代的名人名言多见四字警句。
四字格结构的能产性和派生性极强,利用四字格派生出新词语的模式,在汉语言发展 史上一直起着积极的作用,推动着汉语的发展。直到今天,利用四字格模式创造出的新词 数量在现代汉语词汇中仍然呈上升趋势, 四字词语的数量有增无减。现代汉语词汇系统不 断发展,多音节词语大量涌现,而在这其中四字格结构的新词语占据了显著的地位。有统 计表明在《新语词大词典》的 1977-1990 部分中(韩明安主编,黑龙江人民出版社,1992) , 收录了 5493 个词条,其中四音节词语占大约 40 %;于根元主编的《1991.汉语新词语》中
四音节词语也接近 40 %。有人通过统计得出结论认为“在新词语中双音节优势已经让位于 四音节词语了” (杨晓黎, 1996)。不少研究者都认为汉语的四字格,特别是并列式四字 格结构会有增加的趋势。由于四字格结构的派生性、动态性,使得对四字格结构的研究不 能仅仅局限于文献和理论,而应该将目光更多的投向语料库,投向大量真实文本中的四字 格。
1.1.2 本课题的研究意义
对四字格本体研究的意义
语料库中的四字格结构有其自身的特殊性,对语料库中的四字格结构进行归类,也和 理论语言学领域的一般分类方式有所不同。在语料库中的四字格,由于语料的规模有限度, 所以不可能包含所有四字格结构,尤其是一些特殊结构的四字格,虽然它可能在理论研究 的时候非常典型;同时,由于语料库中的所有四字格结构都是从真实文本中提取出来的, 所以不同的四字格结构,都带有各自不同的频率信息。这些信息反映了四字格结构的不同 类型在实际文本中所占的比重,利用这种信息来对语料库中的四字格结构进行归类研究, 会给四字格结构的识别工作带来有益的启发和帮助。同时,从语料库中抽取出的四字格结 构的类别和比重信息,也会反过来对理论领域的四字格的分类研究提供帮助和补充。
对语料库建设的意义
分词语料库中的切分不一致现象一直是中文信息处理领域的难点。切分不一致问题的 解决好坏对汉语自动分词、分词规范统一、语料库建设等方面都有着重要的影响。四字格 的切分不一致现象是整个分词语料库中分词不一致研究工作的组成部分之一。本课题对分 词语料库内部和分词语料库之间的四字格切分形式进行了详细的统计和归类,对解决整个 语料库中的分词不一致问题起到了积极的作用。
对汉语自动分词的意义
中文文本的自动分词工作是进行自然语言处理的重要环节之一。但是由于汉语自身缺乏 形态变化、切分情况复杂,给汉语自动分词工作带来了一个很大的问题,即同一个词在文本 中是否保持了相同的切分形式。在实际的分词过程中,四字格往往不被切分成一个完整的分 词单位,而是被“切碎”了。例如像“按需分配”这样的一个四字格,在实际的分词语料库 中,它出现过“按 需 分配”这样的切分实例;其它类似的例子还有很多,如“忽 左 忽 右”、“不 一会儿”、“褒贬 不一”等等。作为一个意义凝固的语言单位,无论从分词规范 的角度出发,还是从人们日常说话的直观感觉出发,这些四字格都应该被划分成一个分词单 位而不是被切碎。如果不能很好的解决四字格的切分和识别工作,会给汉语的分词工作带来 麻烦。解决四字格的识别问题,可以减少分词碎片的出现,纠正汉语自动分词中的错误,对 分词正确率的提高有较大的意义。
1.2 本文的研究内容和研究方法
研究内容一:分词语料库中四字格的自动抽取和自动分类。研究方法:人工校对和机器 抽取相结合的方法。
研究内容二:分词语料
您可能关注的文档
- 肥东县农产品加工产业集群的企业技术能力分析-analysis on enterprise technical ability of agricultural products processing industry cluster in feidong county.docx
- 菲涅尔液晶透镜的偏光织构与电光特性分析-polarization texture and electro-optic characteristics analysis of fresnel liquid crystal lens.docx
- 肥胖 血脂与中老年人轻度认知障碍的关联研究-association study of obesity and blood lipid with mild cognitive impairment in middle-aged and elderly people.docx
- 肥胖 血脂与中老年人轻度认知障碍的关联分析-association analysis of obesity and blood lipid with mild cognitive impairment in middle-aged and elderly people.docx
- 非制冷红外成像系统设计与成像质量评价——信号处理软硬件设计、调试与分析-design and imaging quality evaluation of uncooled infrared imaging system - design, debugging and analysis of signal processing hardware and software.docx
- 肥胖表型的连锁排除研究及钙敏受体基因和骨密度的连锁关联研究-study on the linkage exclusion of obesity phenotype and the linkage relationship between calcium-sensitive receptor gene and bone mineral density.docx
- 肥胖差异性蛋白14-3-3γ的验证及其机制分析-verification and mechanism analysis of obesity differential protein 14 - 3 - 3γ.docx
- 肥胖zucker大鼠肠系膜动脉多巴胺d1受体介导血管舒张功能受损及其机制-impaired vasodilation function mediated by dopamine d1 receptor in mesenteric artery of obese zucker rats and its mechanism.docx
- 肥大细胞tlr2 tlr4在人慢性牙周炎牙龈组织中表达的分析-expression of mast cell tlr 2 tl r4 in gingival tissue of human chronic periodontitis.docx
- 肥大型骨不连断端组织成骨潜能的实验分析-experimental analysis of osteogenic potential of large-scale fat nonunion end tissue.docx
- 分层教学对中职生学习过程影响的实验研究--以英语学科为例-experimental study on the influence of stratified teaching on secondary vocational school students' learning process - taking english as an example.docx
- 分层作业在初中英语作业中的应用分析-application analysis of stratified homework in junior high school english homework.docx
- 分簇无线传感器网络链路调度策略分析-analysis of link scheduling strategy in clustered wireless sensor networks.docx
- 分点进水ao工艺处理生活污水的脱氮性能研究-study on nitrogen removal performance of domestic sewage treated by ao process with split water inflow.docx
- 分层网络技术及其应用分析-layered network technology and its application analysis.docx
- 分度值为mm杠杆千分尺的设计-design of lever micrometer with mm dividing value.docx
- 分簇无线传感器网络中跨层频谱感知方法的分析-analysis of cross-layer spectrum sensing method in clustered wireless sensor networks.docx
- 分段进水多级ao脱氮除磷工艺分析及其工程应用-analysis of multistage ao nitrogen and phosphorus removal process with staged water inflow and its engineering application.docx
- 分段进水多级生物膜反应器脱氮效能与动力学模型仿真分析-simulation analysis of nitrogen removal efficiency and kinetic model of multistage biofilm reactor with staged water inflow.docx
- 分段连续型微分方程的全局稳定性及其指数型runge kutta方法的收敛性-global stability of piecewise continuous differential equations and convergence of the exponential runge kutta method.docx
原创力文档


文档评论(0)