云数据处理与挖掘的技术方案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向电子商务的云数据处理与挖掘平台 1.前言 1.1.0 何为数据处理与挖掘? 所谓数据处理和挖掘(Data Mining)就是从存放在数据库,数据仓库或其他信息库中的海量数据中获取有效的、新颖的、潜在有用的、最终可理解的信息过程。从数据中提取出隐含过去未知的有价值的潜在信息。 1.1.1 使用云数据处理与挖掘的意义 随着信息科技的进步以及电子化时代的来临,现今企业所面对的是一个与以往截然不同的竞争环境,不仅企业竞争的强度与速度倍增,市场交易也使得各企业所需储存与处理的数据量越来越庞大。在这种情况下,企业的焦点已从以往的数据整理与搜集转向有效地利用数据库来进行信息的获取。企业如何适应外界的竞争?如何才能快速有效地从数据库中取得有用的信息?如何反映市场或消费者的需求?这些都已成为各企业重视的焦点。 数据挖掘的技术可将原始数据转换为可执行的企业指针,例如了解客户的全貌;预测未来的行为以创造客户更高的价值;建立客户流失预测模型以防止客户的流动;建立风险及信用评估模型以降低企业经营风险;区隔市场挖掘新商机等企业经营决策指针。也唯有将信息转化为企业利润的提升,才能真正显数据仓储及客户关系管理等系统的投资效益。因此,数据挖掘运用的范围广泛,不但可用来将数字资产转换为有形的企业营收,更可用来作为其它系统的效益。 1.1.1 云数据处理与挖掘的应用领域 目前企业界已将数据挖掘应用于多种领域,例如科学、营销、工业、商业、体育、财务、银行、制造厂、通讯、电信业、网络相关行业、零售商、制造业、医疗保健及制药业,等等。 1.1.1 云数据处理与挖掘的未来商业前景 网际网络盛起前,握有最多信息的便是赢家。迈入信息爆炸的网络时代后,企业获取及利用信息的方式将决定企业的竞争优势。 对于现代企业而言,数据可以被视为重要的资产,但是又必须要能利用这些数据,也就是把这些庞大的数据转换为有用的信息,才能产生真正的价值。研究结果显示:企业所处理的数据每五年就会呈倍数成长。大部分的企业并没有数据不足的问题,过度的数据重复与不一致才是大问题,这使得企业无论在使用、有效管理、以及将这些数据用于决策过程方面都遭遇到了困难。因此市场需要的是能够将数据转变成可靠与可用信息的系统。 现代的企业体经常搜集了大量数据,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结构化,使得企业决策单位无法有效利用现存的信息,甚至使决策行为产生混乱与误用。所以妥善地运用数据挖掘技术,并以此从巨量的数据库中将发掘出不同的信息与知识作为决策支持之用,必将能产生并加强企业的竞争优势。 2.云数据处理与挖掘的整体框架 MysqlHBase分布式数据库 Mysql HBase分布式数据库 系统日志 数据源 Hadoop集群--离线计算(Offline) S4--在线计算(Online)(online) 计算层 Mysql-Middle-Tool 查询层 数据中间层 应用 开放API 图-2.1.0 所示 3.云数据处理与挖掘框架的详细设计 3.1.0 Mysql 的海量数据分片设计图 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的网络应用,每天几十亿的浏览量无疑对数据库造成了很高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构开发人员第一考虑的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了死机造成的损失。通过负载均衡策略,有效的降低了单机的访问负载,降低了死机的可能性;通过集群方案,解决了数据库死机带来的单点数据库不能访问的问题;通过读写分离策略将更大限度提高了应用中读取数据的速度和并发量,其数据分片架构图如下: Mysql Mysql 集群中间管理层 Mysql 开放API Mysql Mysql Mysql Mysql Mysql Mysql Mysql Mysql Mysql Mysql Master Slave 查询 写入 写入 请 请 求 图-3.1.0 所示 通过一系列的切分规则将数据水平分布到不同的数据库或表中,在通过相应的数据库路由或者表路由规则找到需要查询的具体的数据库或者表,以进行查询操作。接下来举个例子:我们针对一个博客应用中的来说明,比如杂志文章(article)表有如下字段: article_id(int),title(varchar(128)),content(varchar(1024)),user_id(int) article_id(int),title(varchar(128)),content(varchar(1024)),user_id(int) 其实分析这种博客的应用,能够理解:博客的应用中,用户分

文档评论(0)

55863368 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档