- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识发现技术基本任务 数据分类 分类的目标是通过分析训练数据集,构造一个分类模型(即分类器),该模型能够把数据库中的数据记录映射到一个给定的类别,从而可以用于数据预测。 数据聚类 当要分析的数据缺乏必要的描述信息,或者根本就无法组织成任何分类模式时,利用聚类函数把一组个体按照相似性归成若干类,这样就可以自动找到类。聚类和分类类似,都是将数据进行分组。但与分类不同的是,聚类中的组不是预先定义的,而是根据实际数据的特征按照数据之间的相似性来定义的。 衰退和预报 这是一种特殊类型的分类,可以看作是根据过去和当前的数据预测未来的数据状态。 知识发现技术基本任务 关联和相关性 是指发现大规模数据集中项集之间有趣的关联或相关关系。 顺序发现 通常指确定数据组中的顺序模式。当数据的特定类型的关系已被发现时,这些模式同关联和相关性相似 描述和辨别 是指发现一组特征规则,其中的每一条都是或者显示数据组的特征或者从对比类中区别试验类的概念的命题。 时间序列分析 其任务是发现属性值的发展趋向,如从股票价格指数的金融数据、客户数据和医学数据等。它是用来搜寻相似模式以发现和预测特定模式的风险、因果关系和趋势。 应用范围 知识发现事实上知识发现的潜在应用是十分广阔的.已经远远超出了最初的”货架子工程”。从工业到农业,从天文到地理 从预测预报到决策支持,KDD都发挥着越来越重要的作用。许多计算机软件开发商都已经推出了其数据挖掘产品,如IBM.Microsoft,SPSS.SGI,SLPInfoware,SAS(ObjectBusiness)等。数据挖掘作为信息处理的高新技术已经在实际应用中崭露头角。 知识发现应用范围 1、商业方面。 “货架子工程”是KDD最初成功应用的典范。也正是因为在商业方面的成功应用不断刺激着KDD的发展,进而拓展到越来越广阔的应用领域。如今商业.特别是销售业和服务行业,仍然是KDD应用最广泛的领域之一。主要应用于销售预测、库存需求、零售点选择、价格分析和销售模式分析。 2、农业方面。 农业是一个大型复杂系统 中国农业部门数十年来积累了大量的关于土肥、气象、病虫害、市场信息等方面的数据、实例和经验知识.但基本上没有得到充分利用。通过KDD可以从中发现许多有价值和有规律的知识。如通过对病虫害数据库的分析,可以发现病虫害的影响因素、迁移或蔓延规律等.从而遏制灾害的发生、扩展或降低灾害损失,通过对国际国内市场信息的挖掘来指导农业生产规划等。 知识发现应用范围 3、医学生物方面。 医疗保健行业有大量数据需要处理,但这个行业的数据由不同的信息系统管理,数据组织性差 而且类型复杂。如医疗诊断数据,可能包括文本、数值,图像等,都给应用带来了一些困难。KDD在医药方面主要用于医疗诊断分析、药物成分一效用分析、新药研制和药物生产工艺控制优化等。 4、金融保险方面。 金融事务需要收集和处理大量数据 对这些数据进行分析,发现其数据模式及特征.然后可能发现某个客户.消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。KDD在金融领域应用广泛,如金融、股票市场分析和预测,账户分类、银行担保和信用评估等。 知识发现应用范围 5、通讯、媒体方面。 如线路故障的预测、收视率的影响因素、网站入侵检测、Web信息发现等。 6、国防军事方面。 如军事情报资料分析.指挥自动化与辅助决策、战争风险预测、武器攻击效果分析、地理数据分析等。 7、其他方面。 如工业生产中设备故障诊断.生产工艺优化:科学研究中的数据处理与分析.气象分析和预报等。 4.3.3 云计算 云计算概念是由Google提出的,这是一个美丽的网络应用模式。狭义云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源;广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务,它具有超大规模、虚拟化、可靠安全等独特功效。 云计算的核心思想,是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务。 云计算 云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。 这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。 云计算的蓝图已经呼之欲出:在未来,只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。从这个角度而言,最终用户才是云
文档评论(0)