- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据下的智能数据分析技术研究.pdf
2013 NO.30
科技资讯
SCIENCE TECHNOLOGY INFORMATION
信 息 技 术
大数据下的智能数据分析技术研究
李贵兵 罗洪
( 西南民族大学计算机科学与技术学院 四川成都 6 1 0 0 4 1 )
摘 要:大数据背景下对数据的智能分析技术提出了新的挑战,本文对传统的智能数据分析技术做了比较,分析其各自的优缺点。同时对
新的大数据分析方案Hadoop进行了梳理,提出了未来大数据智能分析技术的发展方向的展望。
关键词:大数据 数据智能分析 Hadoop
中图分类号:TP311.13 文献标识码:A 文章编号:1672-3791(2013)10(c)-0011-02
大数据时代业已到来,当今世界正处 间有价值的关联或相关联系,就是要建立 人工神经网络是一种应用类似于大脑
在一个数据爆炸的时代。伴随着多媒体、云 形如X→Y的蕴涵式,其中X和Y分别称为 神经突触联接的结构进行信息处理的数学
计算、物联网、社交网络等技术的发展,以 关联规则的先导(antecedent)和后继 模型。该模型由大量的节点(或称神经元)之
及天文观测、空间地理、金融分析等各领域 (consequent)。关联规则一般应用在事物数 间相互联接构成。每个节点代表一种特定
每天都在产生巨量的数据,这些数据如此 据库中,其中每个事物都由一个记录集合 的输出函数,称为激励函数(activation
庞大,其规模、其涌现速度和其处理难点超 组成。这种事物数据库通常都包括极为庞 function)。每两个节点间的连接都代表一个
出目前常规技术能管理、处理和分析的能 大的数据,因此,当前的关联规则发现技巧 对于通过该连接信号的加权值,称之为权
[1]
力 。一般来说,大数据具有量大(Volume)、 正努力根据基于一定考虑的记录支持度来 重,这相当于人工神经网络的记忆。网络的
流动性大(Velocity),种类多(Variety),分布 削减搜索空间。关联规则的常见算法有 输出则依网络的连接方式,权重值和激励
式(distributed)、非一致(nonuniformity)等特 Apriori算法、基于划分的算法、FP-树频集 函数的不同而不同。而网络自身通常都是
性,这些特点决定了在大数据时代,我们传 算法等。 对自然界某种算法或者函数的逼近,也可
统的数据处理技术必须有革命性的变化, 1.3 粗糙集(R ou gh Set s) 能是对一种逻辑策略的表达。
包括数据的存储与组织方式、计算方法、数 粗糙集智能数据分析是粗糙集理论中 典型的神经网络模型主要分三大类,
据分析,而对大数据的智能分析技术将尤 的主要应用技术之一,是一种基于规则的 即前馈式神经网络模型,反馈式神经网络
为重要。 数据分析的方法。其思想主要来自统计学 模型,自组织映射方法模型。人工神经网络
和机器学习,但并不是这两种工具随意的 具有非线性、非局限性、非常定性、非凸性
1 几种传统智能数据分析方法的比较 应用,它以粗糙集理论为基础,以数据表所 等特点,它的优点有三个方面:第一,具有
大数据智能分析需要有新的理论和技 表示的信息系统为载体,通过分析给定数 自学习功能。第二,具有联想存储功能。第
术的突破,但它与传统的智能数据分析方 据集的性质、粗糙分类、决策规则的确定性 三,具有高速寻找优化解的能力。
法必定还有延续。传统的数据分析领域,如 以及覆盖度因子等过程,从中获取隐含的、 1 . 6 混沌和分形理论
知识库系统、数据仓库、数据挖掘等已经积 潜在有用的知识。 混沌(Chaos)和分形(F
文档评论(0)