- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于规则的分词算法研究与设计
摘要:中文作为人类沟通交流、传递信息的主要语言工具之一,那么中文信息的处理在信息领域就显得非常重要。中文分词是中文信息处理的基本也是最重要的组成部分之一,它的成功与否直接关系到中文信息处理领域能否取得重大突破。
中文分词是将中文的一段话或者一句话切分成一个一个单独的词,由于中文的词典没有明确规定词的定义,不像英文的单词之间有明确的分隔符,因此要实现中文的准确分词要比英文分词复杂得多也困难得多。目前,主要的分词算法有这么一些:正向最大匹配算法(MM)、逆向最大匹配算法(RMM)、最小切分算法、最佳匹配算法等。
本文先对一些常用的经典算法进行了分析与研究,然后根据任务要求,设计了一个简单的分词系统。系统主要分为三个部分:词典构造与载入、匹配词语、输出结果。本系统做出的改进有:减少了中文标点符号所引起的分词歧义;词典存储采用容器方式调入内存,提高分词效率。
关键字:中文分词;词典;最大匹配
Researching and Designing of Words Segmentation Algorithm based on Rules
Abstract:Chinese as one of the main language tools for human communication and communicate information, so Chinese information processing in the information field is very important. The Chinese word segmentation is the basic and one of the most important part of Chinese information processing, the success directly related to Chinese information processing field can get significant breakthrough.
The Chinese word segmentation is a passage into Chinese or words cut into a single word, since Chinese dictionary definition of the word did not make clear a regulation, dont like English words have clear between separator, so to achieve Chinese word segmentation of accurate than English word segmentation is much more complex and much more difficult. At present, the main parting-words arithmetic has few:maximal matching algorithm, reverse maximal matching algorithm, minimum segmentation algorithm, optimal matching algorithm and so on.
This paper first to some common classical algorithms are analyzed and studied, according to the mission requirements, design a simple word segmentation system. System can be divided into three parts: dictionary structure and load, matching words, output the results. This system has made improvements: reduce caused Chinese punctuation word segmentation ambiguity; dictionary by a gelatinous memory storage containers way, improve efficiency .
Keyword: Chinese word segmentation, dictionary, maximal matching algorithm
目 录
第1章 绪论 1
1.1 课题背景 1
1.2 研究目的与意义 2
您可能关注的文档
- 毕业设计(论文)-单片机机器人避障功能.doc
- 毕业设计(论文)-单片机控制的智能供热监控系统.doc
- 毕业设计(论文)-单片机音乐发生器设计.doc
- 毕业设计(论文)-单片机智能化万年历时钟电路的设计.doc
- 毕业设计(论文)-单相相控整流电路的应用.doc
- 毕业设计(论文)-胆固醇对磷脂脂质体膜性质的影响.doc
- 毕业设计(论文)-刀具磨砂轮机设计.doc
- 毕业设计(论文)-导电杆精密成型工艺及模具设计.doc
- 毕业设计(论文)-滴注仪无线控制主机结构设计及其下盖模具设计.doc
- 毕业设计(论文)-电吹风的设计及数控自动编程.doc
- 毕业设计(论文)-基于激光的远程声音采集系统的研究.doc
- 毕业设计(论文)-基于蓝牙的温度与压力的无线监测设计.doc
- 毕业设计(论文)-基于模特法车削工序工时定额与工艺成本研究.doc
- 毕业设计(论文)-基于模特法的划线工序工时定额及其工艺成本研究.doc
- 毕业设计(论文)-基于网络编码的无线广播重传方案的研究.doc
- 毕业设计(论文)-基于无线网络对PLC的控制.doc
- 毕业设计(论文)-基于西方经济学教学管理信息系统开发与设计.doc
- 毕业设计(论文)-基于西门子PLC的运输带控制系统.doc
- 毕业设计(论文)-基于心理契约的家族企业职业经理激励机制研究.doc
- 毕业设计(论文)-基于虚拟仪器的汽车仪表设计.doc
最近下载
- 初中信息技术浙教版八年级下册:第5课 语音识别技术-教学课件.pptx
- 2025年【8篇文】带头履行全面从严治党政治责任、带头增强党性、严守纪律、砥砺作风等方面检查材料(4个带头).docx VIP
- 22G101 三维彩色立体图集.docx
- 广东省广州市南沙区2023-2024学年四年级下学期期末考试语文试卷(含答案).pdf VIP
- 贵州省贵阳市小升初语文升学考试试卷A卷.docx
- (2025春新教材)外研版三年级英语下册课件Unit 3(Speed up).pptx VIP
- 梦中的婚礼-钢琴谱(高清晰).pdf
- 农村商业银行工作人员违规行为处理暂行办法.pdf
- 黑猫警长美术课件.pptx VIP
- 普通高中政治课程标准测试题及答案.pdf
文档评论(0)