- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据信息产业和Data Mining (数值分析课内报告) 孟大志 信息爆炸是一把双刃剑: 巨量的信息是最重要的财富; (30亿个字符的DNA 序列;计算机产业和 数据信息产业) 巨量的信息是最危险的杀手。 (天气预报;网上犯罪与黑客) 一、数据仓库(Data Warehousing) 二、Data Mining 例:IC卡数据 地理信息系统 人流动态图用途:公交,水电,房地产,商业,环境…长远:经济评价,分析与预测。 * 近十几年来,人们利用信息技术生产和收集数据的能力大幅度提高,千万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,二十一世纪,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,如何才能不被信息的汪洋大海所淹没,又能从中及时发现有用的知识,提高信息利用率呢?否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人人被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 IT业为什么发展这么快?为什么微软的盖兹会成为世界首富?——二十一世纪的需要,社会需要、经济需要、生活需要 —— 信息世界的需要! 下一个快速发展的产业是什么? Data Mining是解决问题的方法。 决策与理解的危机。 对人类社会影响最大的三类信息: 1)英特网信息 1961年11月21日,ARPANET连接了四个单位:UCLA,加州大学,斯坦福研究院和狄他州大学。当时没有人预见到这种NET将导致影响全人类的因特网! (ARPA:五角大楼高级研究计划暑) 1971年发展到24个站点;1981年突破200个;1990年ARPANET完成使命,指挥权转移到国家科学基金会。开始了因特网。 每季度网站以20%增长,完全超越了摩尔定律。 但是巨量在线信息的处理与应用成为瓶颈。 DNA的碱基数目,在GenBank中每十四个月增加1倍。还不包括Bioinformation 中所使用的关于核酸、蛋白质,基因组等更大量的信息。 数据处理与分析是更大量的计算: DNA序列结构,致病基因识别,蛋白质空间结构的描述与分析,药物设计等等。 2)生物与医学信息 个人与单位的资讯, 金融与物资流通, 海陆空交通网络, 气象与环境监测。 3)全球化的社会管理 生产与市场信息 —— 管理信息系统,ERP, MRP2, 电子政务, 电子商务……。 核心是辅助决策 数据库=数据+结构+存储空间 (结构主义,Bourbaki:数学=集合+结构) 数据:字符集上的字符串的集合(同语言的定义)。 (英文字母,十进数字,汉字,图象,声音…) 数据→信息→知识 信息:数据+结构,减少不确定性; 知识:可重复、有规律的信息并被理解的产物。 信息和知识都可以当作数据:产生更高级的信息和知识 数据 ≠ 信息 ≠ 知识 理解信息 知识 理解是核心,是创造,是科学。 结构:集合的子集族。 数据仓库:完整,全面,系统,历史。 例. 图书馆 每本书是字符串的集合,是字符串全集的子集; 分类:按已知的属性把集合中的元素分成子集族,不同的 子集族属于不同的类; 结构: 国际图书分类法; 完善的图书馆是一个好的数据仓库. 例1. 下雨天 留客天 留我不留? 下雨天留客 天留我不留。 数据仓库是面向决策支持的、集成的、 稳定的、不同时间的历史的数据集合。 数据结构:理解,发现,表达,应用。 结构是从数据构成信息的核心,相同的数据赋予不同的结构,得到不同的信息。 例2.相同的数据,不同结构产生不同的文学信息 唐诗 清明时节雨纷纷, 路上行人欲断魂。 借问酒家何处有? 牧童遥指杏花村。 宋词 清明时节雨 纷纷路上行人 欲断魂。 借问酒家何处 有牧童 遥指杏花村。 剧本(元曲) [清明时节][雨纷纷] [路上] 行人(欲断魂): 借问酒家何处有? 牧童(遥指):杏花村。 1。什么是数据挖掘 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又
原创力文档


文档评论(0)