- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
中文自动分词算法综述
内 容 摘 要
本篇文章首先介绍了分词在信息检索、自动标引、自动文摘、机器翻译、语言学研究、搜索引擎研究和自然语言理解等方面的应用以及现有的分词系统;接着介绍分词的基本知识,并提出分词规范的问题,进而引出分词的困难:歧义识别,未登录词识别,分词与理解的先后。
第三章给出三种基本分词方法:基于字符串匹配、基于理解和基于统计的分词方法。特别地给出三种分词算法:最大匹配算法,最少切分算法,基于统计语言模型的分词算法。并分析三种算法的优缺点,指出现有分词算法的局限性。最后从分词算法的特点和输入习惯的角度提出一些新的想法,并对分词算法的发展趋势做出预测。
关键字:分词 匹配 统计 理解
Automatic segmentation for Chinese: the survey
Abstract
This paper first introduced the segmentation in the information inspectional, automatic mark, automatic selected essays, machine translation, the linguistics study, search for the engine study to comprehend with natural language to wait the application and current segmentation system of the aspect; Immediately after introduce the segmentation’s basic knowledge, and bring up the problem of the segmentation, and enter but the difficulty of the segmentation: The ambiguity identifies, and unlisted words identify, segmentation and comprehend successively.
Chapter 3 gives to out three basic participle methods: Base on strings matching, statistics and comprehending. And analyze the goodness and weakness of three kinds of calculate ways, point out the localization of the current participle calculate way. Automatic Chinese word segmentation is a basic research issue on Chinese information processing tasks such as information extraction,information retrieval,machine translation,text classification,automatic text summarization,speech recognition,text—to—speech,natural language understanding and so on.
Key Words:Segmentation match statistics comprehend
目 录
TOC \o 1-3 \h \z \u 绪 论 1
(一)引言 1
(二)汉语的特点 1
(三)中文分词的定义、意义和现状 2
1.中文分词的定义 2
2.中文分词的意义 2
3.中文自动分词现状 2
4.几个早期的自动分词系统 3
(四)自动分词系统的性能指标 4
(五)问题的提出 5
一、中文分词中的难题 6
(一)歧义识别 6
(二)新词 6
(三)现有研究成果 6
1.歧义的消除 7
2.未登陆词的识别 7
二、现有分词方法分析 9
(一)现有分词方法介绍 9
1.现有主要的分词方法 9
2.分词算法的基本思想 9
(二)分词方法的比较 10
1.机械匹配算法 10
2.统计语言算法 10
3.人工智能算法 10
(三)现有的分词方法的局限性 11
三、最大匹配算法的研究 12
(一)最大匹配算法设计 12
(二)最大匹配算法的不足
您可能关注的文档
- 《云南特产网上销售系统的设计与实现》-毕业论文(设计).doc
- 《运城学院公体篮球选项课教学内容的调查研究》-毕业论文(设计).doc
- 《运筹学博弈论论文--“智猪博弈”问题及其在中小企业发展中的应用》-毕业论文(设计).doc
- 《运筹学论文-学习运筹学的心得》-毕业论文(设计).doc
- 《运筹学在企业库存管理系统设计中的应用》-毕业论文(设计).doc
- 《运动会管理系统》-毕业论文(设计).doc
- 《运动型MP3的创新探讨研究》-毕业论文(设计).doc
- 《仔猪副伤寒的诊治》-毕业论文(设计).doc
- 《在县级烟草公司实施全面预算管理的研究》-毕业论文(设计).doc
- 《在线旅游市场机会与市场营销》-毕业论文(设计).doc
文档评论(0)