- 5
- 0
- 约5.54万字
- 约 67页
- 2019-05-11 发布于上海
- 举报
万方数据
万方数据
独创性(或创新性)声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其 他人已经发表或撰写过的研究成果;也不包含为获得桂林电子科技大学或其它教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中做了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期:
关于论文使用授权的说明
本人完全了解桂林电子科技大学有关保留和使用学位论文的规定,即:研究生在 校攻读学位期间论文工作的知识产权单位属桂林电子科技大学。本人保证毕业离校 后,发表论文或使用论文工作成果时署名单位仍然为桂林电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规 定)
本学位论文属于保密在 年解密后适用本授权书。 本人签名: 日期:
导师签名: 日期:
摘要
摘 要
中文分词是将中文文本中的词语按照一定的规则进行切分的过程。由于中文 语句中字与字之间没有任何明显的切分标记,计算机无法对词语进行自动识别, 因此必须利用相关的方法对语句进行处理。
中文分词是自然语言处理中最基本也是最重要的一个环节,分词结果的好坏 直接影响后续工作的质量。国内外研究人员在分词领域做了大量的研究工作,同 时取得了一定的成绩,提出了很多分词方法,能够将分词方法与实际应用相结合,
是分词发展的最终目的。本文分词系统面向对象为科技文献,根据实际需要本文 的研究工作主要有:
首先,术语抽取。科技文献中含有大量的具有一定代表意义的词语,我们称
之为术语。对科技文献进行分词,术语能否正确切分对分词的结果有很大的影响, 但是由于术语其本身的特殊性,在分词过程中难以对其正确地切分。针对这种问 题,本文利用互信息原理对领域内的术语进行抽取,将获取的术语添加到核心词 典构成分词词典,为下一步的分词做准备。
其次,分词算法改进。中文信息中,长字词代表的信息量较大,科技文献中 术语以长字词为主,为了能够最大限度的保证长字词的正确切分以及减少匹配过
程中无效匹配的次数,本文依据长词优先的分词原则,在传统最大匹配的基础上 对分词算法进行了改进,保证了对长字词的正确切分,通过比较每一个字的构词 长度,动态获取最大匹配词长,减少了无效匹配的次数,提高了分词效率。
再次,词典构造和歧义词处理。结合改进的最大匹配分词算法,在双字哈希 结构的基础上对分词词典的结构进行了改进和设计,提高了词语匹配的速度。利 用改进的最大匹配算法,采用双向匹配的方法进行分词,若分词结果相同,则输
出分词结果,否则,句子含有歧义字段,利用统计与规则的方法对其进行消歧处 理,最终得到正确的分词结果。
最后,分词系统设计。基于文中所提的算法,设计并实现了中文分词系统
(CWSS),通过和其他分词系统与方法进行比较,验证了 CWSS 对科技文献的分 词具有一定的优势,符合实际需要。
关键词:中文分词;科技文献;术语;哈希结构;歧义字段
-I -
Ab
Abstract
Abstract
Chinese Word Segmentation adopts some rules to make Chinese text divide to certain meaningful words. Because there are no obvious segmentation symbols in those sentences, machines can not recognize them. So it is necessary to use some methods to recognize words from Chinese sentence.
Chinese Word Segmentation is very important and fundamental in natural language processing, the result of the word segmentation affects the quality of the subsequent processing steps. Some foreign and domestic researchers in the field of Chinese Word Segmentation have made a lot of research work and research results. They provide some methods abo
您可能关注的文档
- 面向无线传感器网络的路由算法及安全协议研究-计算机软件与理论专业毕业论文.docx
- 面向社区卫生服务的医疗信息服务平台的设计与实现-计算机技术专业毕业论文.docx
- 面向非一致性内存访问架构的虚拟CPU调度系统-计算机系统结构专业毕业论文.docx
- 面向对象的软件测试分析-计算机软件与理论专业毕业论文.docx
- 考虑应力水平影响的软土弹塑性模型研究-岩土工程专业毕业论文.docx
- 黄连解毒降压汤治疗高血压病临床研究-中医内科学专业毕业论文.docx
- 眉山公司电压监测与综合管理系统的设计与实现-软件工程专业毕业论文.docx
- 煤矿班组安全共享心智模式研究-企业管理专业毕业论文.docx
- 民航机场生产运行信息智能交互平台-软件工程专业毕业论文.docx
- 旅游网站访问量的Zipf分布形态及其空间距离指数衰减形式分析-人文地理学专业毕业论文.docx
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
原创力文档

文档评论(0)