- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代数据挖掘技术浅析.doc
大数据时代数据挖掘技术浅析 摘要:21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等都极大拓展了其应用范围,各种数据迅速扩张变大。大数据蕴藏着价值信息,但如何从海量数据中淘换出出对客户有用的沙金甚至钻石,是数据人面临的巨大挑战。本文在分析大数据基本特征的基础上,对数据挖掘技术的分类及数据挖掘的常用方法进行了简单分析,以期能够在大数据时代背景下能够在数据挖掘方向取得些许成绩。 关键词:大数据 数据挖掘 方法 中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)04-0222-01 1 大数据时代数据挖掘的重要性 随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。 如果运用合理的方法和工具,在企业日积月累形成的浩瀚数据中,是可以淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就非常完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。 数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。 2 数据挖掘的分类 数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技术进行如下几种分类: 2.1 按挖掘的数据库类型分类 利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及事务型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。 2.2 按挖掘的知识类型分类 这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不仅仅是一种单一的功能模式,而是各种不同功能的集合。同时,在上述分类的情况下,还可以按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时可以将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类,一般来说,数据的规则性可以通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法,同时还可以通过这些挖掘方法来检测和排除噪声。 2.3 按所用的技术类型分类 数据挖掘的时候采用的技术手段千变万化,例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。 2.4 按应用分类 根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术,每种数据挖掘技术都有自身的专用性。 3 数据挖掘中常用的方法 目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。 遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。 决策树算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种
您可能关注的文档
最近下载
- 电子对抗原理与技术(第3版)全套PPT课件.pptx
- 冷拼课件教学课件.pptx VIP
- 最新2025年秋开学第一课主题班会PPT课件(含抗战胜利80周年内容).ppt
- 22G101 三维彩色立体图集.docx VIP
- 2024年秋季新北师大版七年级上册数学全册教案设计.docx
- 吴清忠:人体复原工程.pdf VIP
- 川崎 Kawasaki 2022款 Z 400 中文用户手册 使用说明书2021年4月14日印刷.doc VIP
- [北京]冷轧带钢工程薄板酸轧设备基础施工方案.doc VIP
- 全国教学能力比赛《声临其境·影视配音要旨》教案(一等奖).pdf
- (高清版)DB36∕T 713-2013 高速公路红砂岩路基施工技术规范 .pdf VIP
文档评论(0)