第一章算法的基本概念.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章算法的基本概念.doc

第1章 概 论 1.1 信 息 处 理 中文信息处理技术作为计算机技术与中国语言文字相结合的一门交叉学科,随着信息处理技术的发展,近年来得到了快速的发展。语言文字信息处理作为计算机应用技术的一个重要分支,伴随着计算语言学、心理学、数学以及计算机科学的发展,已经成为新世纪信息技术中的一个重要研究领域。无论是中文信息处理还是语言文字信息处理,都离不开“信息”的概念。 信息(information)既是一种抽象的概念,又是一个无处不在的实际事件。控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总称。因此,可以认为,信息是人与外界的一种交互通信的信号量。 信息论奠基者Clause Shannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途,表明了信息是一个可以度量的概念,且指出了信息的度量方法可以依据相应的事件发生的概率进行确定大小。这样,不同概率实践就包含了不同的影响度(或称信息量)。 Robert M. Losee在1998年11月的《美国社会信息科学学报》上发表了“独立于学科的信息定义”论文,给出的信息定义是“Information may be defined as the characteristics of the output of a process,these being informative about the process and the input”。即信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。 信息处理就是对信息的接收、存储、转化、传送和发布等。随着计算机科学的不断发展,计算机已经从初期的以“计算”为主的一种计算工具,发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。 上述概念或许过于抽象。其实信息在日常生活中无处不在。例如,在计算机信息处理领域,从计算机能处理的信息形式看,信息可以分为文本信息、多媒体信息和超媒体信息;从信息的结构化程度看,信息可以分为结构化信息、半结构化信息和非结构化信息。在信息安全领域,信息有公开的信息、一般保密信息和绝密信息等。因此,信息与我们的日常工作密不可分。 进一步分析计算机信息处理的过程,可以看到,信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来。 计算机信息处理的过程实际上与人类信息处理的过程一致。人们对信息处理也是先通过感觉器官获得的,通过大脑和神经系统对信息进行传递与存储,最后通过言、行或其他形式发布信息。 1.2 中文信息处理 中文信息处理,从广义来说,由我们祖先创立中文开始,就一直在进行;从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理(赵伯璋.计算机中文信息处理.北京:中国宇航出版社,1987)。按照《计算机科学技术百科全书》(清华大学出版社,1998)中对计算机中文信息处理的定义为:用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。汉字学和汉语语言学中的词法学、句法学、语义学和语用学给中文信息处理的各个层面提供了可靠的理论依据,而人工智能的知识工程、机器学习、模式识别和神经计算,数学中的模型理论、形式化理论和数理统计等构成了中文信息处理的方法论基础。简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学与语言文字学的交叉学科。 汉字是目前世界上仅存的为数不多的几种象形文字之一,也是使用人口最多的一种文字之一。从文字的创建到文字的发展和演化,这一过程本身也是文字信息处理的过程。自从有了字典,人们开始对创建的汉字进行音、形、义和用等方面的描述和规范,并根据汉字本身的属性,提出了按字的笔画、部首和读音等多种分类与查找方法,这些分类本身也是中文信息处理的一个部分。 自从第一台电子计算机的诞生,人们一直不断地在尝试着如何利用

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档