- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应 用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨 论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改 进算法是针对分析原有的最大匹配算法的弊端以及避免交集型歧义字段在切分中 出现错误而改进的,该算法在保证一定切分速率的基础上提高了中文切分的准确 率。
本文描述的中文分词算法是基于避免交集型歧义字段的最大匹配算法的改进 算法。文中首先介绍了目前的中文分词算法,其中就常用的分词算法、分词词典 机制以及歧义字段相关理论三部分来详细讲解目前中文分词算法的基本理论;其 次根据已有分词词典机制描述了基于 Hash 表的反向词典机制;在提出的反向分词 词典机制的基础上改进了最大匹配算法,提出了基于避免交集型歧义的最大匹配 算法的改进算法。
最后论文中实现了简单的中文分词系统,此系统用来进行基于避免交集型歧 义字段的最大匹配改进算法实验,并且用此系统把四种算法进行了实验比较。实 验结果证明基于避免交集型歧义字段的最大匹配改进算法具有较好的性能和实用 性。但是由于本实验没有涉及对于未识别词的识别问题,所以实验结果并没有达 到目前标准的准确率。
关键词:中文信息处理 中文分词算法 最大匹配算法 分词词典机制 交集型歧义 字段
Abstract
In todays information world, the Chinese information processing in various large fields has been widely used. This paper focuses on the maximum matching algorithm research and discussion based on the dictionary mechanism on the Chinese word segmentation algorithm. Because of the Chinese semantic complexity, a large number of ambiguity will appear after Chinese segmentation. In this paper the maximum matching improved algorithm is based on the analysis of the maximum matching algorithm so as to avoid ambiguous phrases of overlap type in the segmentation error and improved, in the guarantee rate based on improved Chinesse segmentation accuracy.
The Chinese word segmentation algorithm in this paper is based on avoiding overlapping ambiguity string of the maximum matching algorithm. Firstly, this paper introduces the current Chinese word segmentation algorithm, it include commonly used in the word segmentation algorithm, commonly used the dictionary mechanism as well as the theory about ambiguity to explain basic theories of the Chinese word segmentation algorithm; Secondly this paper describe the reverse dictionary mechanism based on the Hash table according to the existing dictionary mechanism, the maximum matching improved algorithm,and the maximum matching improved algorithm for avoid ambiguous phrases of overlap type .This algorithm’s accuracy is improved based on a range of segmentation rate.
Fi
您可能关注的文档
- 基于XML网络管理代理的研究-计算机应用技术专业论文.docx
- 基于XML网上考试系统的分析与实现-计算机软件理论专业论文.docx
- 基于XML网上考试系统的研究与实现-计算机应用技术专业论文.docx
- 基于XML文档的TRIP数据库应用研究-情报学专业论文.docx
- 基于XML消息中间件的工作流应用集成框架研究-计算机应用技术专业论文.docx
- 基于XML消息中间件的数据交换在电子政务中的应用研究-计算机应用专业论文.docx
- 基于XML异构数据库数据转换工具设计与实现-计算机软件与理论专业论文.docx
- 基于XML引擎的安全网关的研究与实现-计算机软件与理论专业论文.docx
- 基于XML用户界面管理系统的研究及应用-计算机应用技术专业论文.docx
- 基于XML与.NET技术的动态Web信息发布系统的研究和设计研究-系统工程专业论文.docx
- 基于避障的移动机器人立体视觉算法研究-精密仪器与机械专业论文.docx
- 基于边际成本理论的高耗能企业电价研究-水利水电工程专业论文.docx
- 基于边际收益法的酒店收益优化决策研究-企业管理专业论文.docx
- 基于边际效益理论的企业安全投入优化研究-安全技术及工程专业论文.docx
- 基于边界Logistic模型的我国上市公司信用风险的研究-概率论与数理统计专业论文.docx
- 基于边界检测的无线传感器网络能量密度路由算法研究-计算机科学与技术专业论文.docx
- 基于X射线平板探测器的直焊缝检测技术-电子与通信工程专业论文.docx
- 基于X射线图像处理的石油焊管缺陷检测技术-检测技术与自动化装置专业论文.docx
- 基于边界快速求解EPs的算法-计算机软件与理论专业论文.docx
- 基于边界扫描的处理器测试分析与研究-电子与通信工程专业论文.docx
最近下载
- 大麦EK318.操作手册.C01.220905.pdf
- 五马先生纪年.docx VIP
- 急救与心理技能(视频课)知到课后答案智慧树章节测试答案2025年春中南大学.docx VIP
- 应急救援员国家职业技能标准(2019年版).pdf VIP
- 场地设计作图题-一级建筑师场地设计(作图题)真题精选.docx VIP
- 小学环境教育:校园内水体污染调查与水质保护实践教学研究课题报告.docx
- 阿迪达斯(Adidas)品牌现状分析与二次增长战略规划.pptx
- 人教版七年级上册数学一元一次方程计算题及应用题.docx VIP
- 人教版2025八年级上册英语Unit3 same or different单元复习课件.pptx VIP
- 濒危古树评估与抢救保护技术规程.docx VIP
文档评论(0)