- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文自动分词系统设计文献综述
中文自动分词系统设计+文献综述
随着社会的发展,科学的进步,人类在不知不觉中进入了一个ldquo;信息大爆炸rdquo;的阶段,人类通过电视、报纸、收音机、户外媒体等所接触的各种资讯以飞一般的速度增长。在这个各种文字信息快速传播的社会里,无论是个人、企业还是国家,信息的重要性与日俱增。在这个接触过程中,计算机所参与的分量越来越多,人类的各种语言和符号是人类之间相互交流,理解彼此间意图的一个纽带,在这个过程中,语言起到了一个根本性的作用。7829
当人们发现计算机在很多发面能够帮助人甚至代替人完成一系列的工作,人类就期望计算机能够直接理解人类的语言,甚至能够在某种程度上具有一定的智能。但是由于计算机不能直接处理人类的自然语言,因此必须通过特定的软件和人机接口来达到这种目的,使计算机能够理解人们要它做什么,以及应该怎么做。如何高效、快速、准确的处理海量文字信息成为了技术人员和实际工业界应用的热点。在中国,据统计80%以上的信息是以语言文字为载体。国务院制定的国家中长期科技发展纲领中也明确指出:ldquo;中文信息处理市高新技术发展的重点rdquo;。
计算机在数字处理和运算方面的成就都已有目共睹。相比这些领域的应用,在自然语言处理方面,无论发展程度还是使用程度都相对滞后。从研究现状来看,自然语言理解和处理的理论体系仍未在真正意义上建立,技术手段仍然比较单一。
自然语言作为人类思想感情最基本、最直接、最自然地表达方式,是人类社会中最常用的交流工具。随着信息时代的到来,人们使用自然语言进行通信和交流的形式也越来越趋于多样性、灵活性和广泛性。然而,人脑是如何来建立自然语言的思维过程?如何来建立自然语言、知识和客观世界之间可计算的逻辑?诸如此类一系列问题一直困扰着自然语言处理的研究者们。目前用计算机来处理自然语言的应用大部分情况下都不能满足人们的需求。语言之间的障碍已成为21世纪制约人类发展和全球化的一个重要因素,自然语言处理的研究肩负着打破不同语言之间的壁垒,为人与人、人与计算机之间的交流提供高效实用支持的重大任务。
分词技术作为自然语言处理的基本环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。其中,中文分词由于中文结构的特点,与西方国家文字相比更难以处理。汉语的词汇与词汇之间没有显式的边界,汉语的分词需要通过计算机对文字内容的分析,来达到切分词汇的目的。中文分词已成为计算机处理汉语面临的首要基础性工作。只要提高中文分词系统的准确率和工作效率,才能使自然语言处理系统稳定高效地工作。相信在不久的将来,计算机科学技术的进一步发展能将人类文明推向新的高度。
2中文分词概述
2.1中文分词的概念
2.1.1什么是中文分词
中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓中文分词,指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。[5]我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
比如英语句子ldquo;A lazy youth,a lousy agerdquo;,中文意思为ldquo;少壮不努力,老大徒伤悲rdquo;。对于英语句子来说,只有通过空格和标点符号来切分即可,并且不会产生歧义。在中文句子ldquo;少壮不努力,老大徒伤悲rdquo;中ldquo;老大rdquo;和ldquo;老rdquo;、ldquo;大rdquo;都有可能构成词,要让计算机明白什么时候应该切分出一个词汇,相对于英语来说,难度有质的不同。
中文分词的过程,就是要把一句话中有意义的词汇都切分出来。在ldquo;少壮不努力,老大徒伤悲rdquo;这句话中,正确的切分应该是ldquo;少壮/不/努力,老大/徒/伤悲rdquo;。
2.1.3中文分词的应用
中文分词主要应用于信息检索、汉字的只能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。
通过近几年的发展,互联网已经相当普及,互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果有人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:ldquo;实现在情报方面的自动化rdquo;和ldquo;现在是时候出发了rdquo;中都有ldquo;现在rdquo;,被当做同一类来处理,结果是检索ldquo;现在rdquo;的相关信息,会将他们都检索到,在信息量少的情况
您可能关注的文档
- S7-200 PLC步进电机控制系统的设计+仿真图.doc
- Riemann Solution of Compressible Euler Equations_英语论文.doc
- RO-E和Dynaform椭圆盒件拉深成形有限元分析与工艺正交优化.doc
- Saber差动式三电平逆变电路的分析与设计.doc
- SAP金税接口研究及税差额处理算法设计.doc
- SAR图像相干斑抑制算法研究+文献综述.doc
- SCB火工品等离子体温度特性测试+文献综述.doc
- SAT+MiniSAT三元可满足性问题的研究与实现.doc
- SC-CO2在PS中的溶解性及微孔PS力学性能研究.doc
- Saber高频环节矩阵式变换器的分析与设计.doc
最近下载
- 汉语口语速成入门篇上 第九课 你家有几口人?教案资料.ppt VIP
- DZ∕T 0291-2015 饰面石材矿产地质勘查规范.pdf
- 太阳能路灯工程施工组织方案的编制与应用指南.docx VIP
- 教育行业在线教学平台建设与运营管理方案.doc VIP
- 2025年国家开放大学电大《公共部门人力资源管理》机考3套真题题库及.docx VIP
- (2024版)小学一年级道德与法治下册第一课《有个新目标》教学设计部编版.pdf VIP
- 中华护理学会专科护士通科题库 .pdf VIP
- 2025天津市华淼给排水研究设计院有限公司对外招聘7人笔试历年参考题库附带答案详解.docx
- 老年社会工作服务项目策划书.docx VIP
- 圆钢方钢管受压承载力计算表.xls VIP
文档评论(0)