- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于规则的分词算法研究与设计
摘要:中文作为人类沟通交流、传递信息的主要语言工具之一,那么中文信息的处理在信息领域就显得非常重要。中文分词是中文信息处理的基本也是最重要的组成部分之一,它的成功与否直接关系到中文信息处理领域能否取得重大突破。
中文分词是将中文的一段话或者一句话切分成一个一个单独的词,由于中文的词典没有明确规定词的定义,不像英文的单词之间有明确的分隔符,因此要实现中文的准确分词要比英文分词复杂得多也困难得多。目前,主要的分词算法有这么一些:正向最大匹配算法(MM)、逆向最大匹配算法(RMM)、最小切分算法、最佳匹配算法等。
本文先对一些常用的经典算法进行了分析与研究,然后根据任务要求,设计了一个简单的分词系统。系统主要分为三个部分:词典构造与载入、匹配词语、输出结果。本系统做出的改进有:减少了中文标点符号所引起的分词歧义;词典存储采用容器方式调入内存,提高分词效率。
关键字:中文分词;词典;最大匹配
Researching and Designing of Words Segmentation Algorithm based on Rules
Abstract:Chinese as one of the main language tools for human communication and communicate information, so Chinese information processing in the information field is very important. The Chinese word segmentation is the basic and one of the most important part of Chinese information processing, the success directly related to Chinese information processing field can get significant breakthrough.
The Chinese word segmentation is a passage into Chinese or words cut into a single word, since Chinese dictionary definition of the word did not make clear a regulation, dont like English words have clear between separator, so to achieve Chinese word segmentation of accurate than English word segmentation is much more complex and much more difficult. At present, the main parting-words arithmetic has few:maximal matching algorithm, reverse maximal matching algorithm, minimum segmentation algorithm, optimal matching algorithm and so on.
This paper first to some common classical algorithms are analyzed and studied, according to the mission requirements, design a simple word segmentation system. System can be divided into three parts: dictionary structure and load, matching words, output the results. This system has made improvements: reduce caused Chinese punctuation word segmentation ambiguity; dictionary by a gelatinous memory storage containers way, improve efficiency .
Keyword: Chinese word segmentation, dictionary, maximal matching algorithm
目 录
第1章 绪论 1
1.1 课题背景 1
1.2 研究目的与意义 2
您可能关注的文档
- 毕业设计(论文)-单片机机器人避障功能.doc
- 毕业设计(论文)-单片机控制的智能供热监控系统.doc
- 毕业设计(论文)-单片机音乐发生器设计.doc
- 毕业设计(论文)-单片机智能化万年历时钟电路的设计.doc
- 毕业设计(论文)-单相相控整流电路的应用.doc
- 毕业设计(论文)-胆固醇对磷脂脂质体膜性质的影响.doc
- 毕业设计(论文)-刀具磨砂轮机设计.doc
- 毕业设计(论文)-导电杆精密成型工艺及模具设计.doc
- 毕业设计(论文)-滴注仪无线控制主机结构设计及其下盖模具设计.doc
- 毕业设计(论文)-电吹风的设计及数控自动编程.doc
- 场地脚手架工程施工方案(3篇).docx
- 2024年浙江省丽水市松阳县玉岩镇招聘社区工作者真题及参考答案详解一套.docx
- 2024年河南省郑州市惠济区古荥镇招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市淳安县文昌镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省台州市三门县小雄镇招聘社区工作者真题带答案详解.docx
- 2024年浙江省宁波市余姚市河姆渡镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省丽水市景宁畲族自治县雁溪乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市临安市板桥乡招聘社区工作者真题及答案详解一套.docx
- 2024年湖北省宜昌市点军区土城乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省台州市路桥区桐屿街道招聘社区工作者真题附答案详解.docx
最近下载
- JGJ33-2012 建筑机械使用安全技术规程.docx VIP
- TB_10307-2020 铁路通信、信号、信息工程施工安全技术规程.docx VIP
- 简明新疆地方史读本电子版 .pdf VIP
- 基于PLC的加热反应炉自动控制系统设计.pdf VIP
- 抗病毒药物的合理使用课件.pptx VIP
- TB10181-2017 铁路隧道盾构法技术规程.docx VIP
- 静脉输液课件(共87张PPT).pptx VIP
- 《商业银行经营与管理》22春平时作业1答卷.doc VIP
- 2024-2025学年小学美术五年级上册桂美版(2024)教学设计合集.docx
- 2022年版初中物理课程标准新课标考试题库及答案1 .pdf VIP
文档评论(0)