- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据信息与知识
张奠成(合肥工业高校)关键词:数据发掘,学问发觉,信息发掘,事务智能一数据过剩与学问贫乏计算机与信息技术经验了半个世纪的发展,给人类社会带来了巨大的改变与影响。支配人类社会三大要素(能源材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化時代,使现代社会全部大的机构都卷入到以数据及其处理(数据搜集存储检索传送分析和表示)的浪潮中。而随着人类活动范围扩展,节奏加快,以及技术的进步,人们能以更快速较易而廉价的方式获得和存储数据,这就使得数据和信息量以指数形式向上增长。早在八十头,人们粗略地估算到全球信息量,每隔20个月就增加班一倍。进入九十头,各类机构全部数据库数据量增长更快。一个不大的企业每天要产生101MB以上来自各方面的营业数据。美国政府部门的一个典型的大数据库每天要接收约5TP数据量,在15秒到1分钟时间里,要维持的数据量达到300TB,存档数据达15-101PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4TB之多,而为了探讨的须要,这些数据要保存七之久。九十头因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPN--VirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,呈现在人们面前的已不是局限于本部门,本单位和本行业的浩大数据库,而是浩瀚无垠的信息海洋。据估计,11013面全球数据存贮容量约为二千TP,到达2000会增加到三百万TB,对这极度膨胀的数据信息量,人们受到“信息爆炸”“混沌信息空间”(InformationChaoticSpact)和“数据过剩”(Dataglut)的巨大压力。然而,人类的各项活动基于人类的才智和学问,即对外部世界的视察和了解,正确的推断和决策以及实行正确的行动,而数据仅仅是人们用各种工具和手段视察外部世界所得到的原始材料,它本身没有任何意义。从数据到才智,要经过分析加工处理精炼的过程。如图1所示:数据是原材料,它只是描述发生了什么事情,它不供应推断或说明,和行动的牢靠基础。人们对数据进行分析找出其中关系,给予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们手上的任务没有什么关联,还不能做为推断决策和行动的依据。对信息进行再加工,进行深化洞察,才能获得更有用可资利用的信息,即学问.所谓学问,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发觉的。”从信息中理解其模式,即形成学问。在大量学问积累基础上,总结成原理和法则,就形成所谓才智(Wisdom).其实,一部分人类文明发展史,就是在各种活动中学问的创建沟通再创建不断积累的螺旋式上升的历史。另一方面,计算机与信息技术的发展,加速了这种过程,据德国世界报的资料分析,假如说19世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学相识)的相识数量一百零一增长一倍,到本世纪60头中期以后,每五就增加一倍。这其中学问起着关键的作用。当数据量极度增长时,假如没有有效的方法,由计算机及信息技术来提取有用信息和学问,也感到像大海捞针一样手足无措。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用.这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)数据关在牢笼中”(datainjail).二从数据到学问早在八十头,人们从“物竞天择适者生存”的大原则下,相识到“谁最先从外部世界获得有用信息并加以利用谁就是优胜者”。现时当市场经济面对全球性猛烈竞争的环境下,一家厂商的优势不在于像产品服务地区等方面因素,而在于创新。用学问来作为创新的原动力,就能使公司长期持续保持竞争优势。因此要能刚好快速从日积月累的浩大的数据库及网络上获得有关经营决策有关学问,这是应付客户需求易变性及市场快速改变引起竞争激烈局面的唯一武器。针对上述状况,如何对数据与信息快速有效地进行分析加工提炼以获得所需学问并发挥其作用,向计算机和信息技术领域提出了新的挑战。其实计算机和信息技术发展的过程,也是数据和信息加工手段不断更新和改善的过程。早受技术条件限制,一般用人工方法进行统计分析,和用批处理程序进行汇总和提出报告.在当时市场状况下,月度和季度报告已能满意决策所需信息要求。随着数据量的增长,多渠道数据源带来各种数据格式的不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是所谓数据仓库(dataWarehousing).它不同于只适用于日常
文档评论(0)