- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分词语料库中四字格的切分和识别研究-语言学及应用语言学专业论文
PAGE
PAGE 5
中文摘要
四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉 语词汇中仍然呈上升趋势,因此对四字格的研究不能仅仅局限于文献和理论。本 文将研究的目光投向分词语料库中数量众多的四字格,并针对分词语料库中四字 格易被切碎的特点,进行了四字格抽取、四字格切分不一致比较、四字格识别等 一系列工作。
本文首先对分词语料库中的四字分词单位进行提取和筛选,得到四字格抽取 结果;并利用四字格抽取结果,进行了分词语料库内部和分词语料库之间的四字 格切分不一致比较工作。在四字格识别研究中,通过引入 crf 统计模型,并将四 字格切分不一致结果作为模型训练语料,本文在有词性标注分词语料库中进行了 四字格的识别研究。利用 crf 模型识别得到的四字格结果,统计四字格用字、词 性信息并观察内部结构特点总结规则,本文在无词性标注分词语料库中也进行了 四字格的识别研究。识别结果表明,在有词性标注分词语料库和无词性标注分词 语料库中,四字格的识别精度都能达到 90%左右。
关键字:分词语料库,四字格抽取,切分不一致,CRF
Abstract
The productive and derivative of four-character idioms are extremely high, the use of four-character pattern to create new words in the vocabulary of modern Chinese still on the rise, so the works on four-character idioms can not be limited to research and theoretical literature. This article will look into the eyes of the large number of four-character idioms in word-segmented corpora, and works for extraction, segmented comparison, recognition and a series of work of four-character idioms for the easily shred characteristics of four-character idioms in word-segmented corpora.
This article first works on the fourth sub-word units in word-segmented corpora for extraction and screening, in order to take the results as the four-character idioms extraction; and works on the segmented comparison of four-character idioms both in single segmented corpora and between different segmented corpora by using the results of four-character idioms extraction . In the works of four-character idioms recognition, through the introduction of crf statistical model, and take the results of segmented comparison of four-character idioms as a training corpora of the model, in this article we develop the research of the recognition of four-character idioms in POS-tagged corpora. By using the results of the recognition of four-character idioms based on Crf model, and statisticsing the words, POS information, interal features of four-character idioms to summarize rules, in this article we also develop the research of
您可能关注的文档
- 分布式视频编码技术与应用研究-电子与通信工程专业论文.docx
- 分布式视频编码系统中边信息技术研究-电子与通信工程专业论文.docx
- 分布式视频编码相关技术的研究-信号与信息处理专业论文.docx
- 分布式视频编码系统中边信息的研究-通信与信息系统专业论文.docx
- 分布式视频转码服务调度算法研究-信号与信息处理专业论文.docx
- 分布式视频转码系统的设计与实现-软件工程专业论文.docx
- 分布式计算系统管理端的跨平台实现-软件工程专业论文.docx
- 分布式计算框架Antnest的任务调度设计与实现-计算机技术专业论文.docx
- 分布式视频转码系统设计-计算机应用技术专业论文.docx
- 分布式视频编码的边信息融合与重构-通信与信息系统专业论文.docx
- 2025年四川省万源市事业单位考试(中小学教师类D类)职业能力倾向测验试卷一套.docx
- 2025年山西省介休市事业单位考试(中小学教师类D类)职业能力倾向测验重点难点精练试题含答案.docx
- 黑龙江省五大连池市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库及答案一套.docx
- 2025年吉林省敦化市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题推荐.docx
- 2025年山西省古交市职业能力倾向测验事业单位考试(中小学教师类D类)试题完美版.docx
- 2025年山西省侯马市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题1套.docx
- 2025年广东省信宜市职业能力倾向测验事业单位考试(中小学教师类D类)试题参考答案.docx
- 黑龙江省宁安市事业单位考试(中小学教师类D类)职业能力倾向测验试卷带答案.docx
- 2025年云南省腾冲市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题及答案1套.docx
- 福建省龙海市事业单位考试(中小学教师类D类)职业能力倾向测验强化训练试题集带答案.docx
最近下载
- 六年级数学《圆的对称性》C1跨学科学习活动设计学习活动方案学生成果及点评.pdf VIP
- 高低压变配电工程施工招标文件.pdf VIP
- 变电站施工合同协议书范本.docx
- 《分级护理制度》课件.ppt VIP
- 2024年检验类之临床医学检验技术(士)真题精选附答案 .pdf VIP
- J B∕T 13202.4-2017 -柴油机 颗粒捕集系统 第4部分:颗粒捕集器技术条件.pdf
- 2.蜗牛的坚持 课件(共19张PPT内嵌视频) 人教版一年级美术上册02.ppt.pptx VIP
- 软科2024年中国大学排名 .pdf VIP
- DB37_T 5174-2021 山东省沿海地区建筑工程风压标准.docx
- 小学跨学科教学的评价与反馈.docx
文档评论(0)