大数据相关技术.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 2 章 大数据相关技术  掌握大数据处理流程:数据采集、  掌握大数据的主要架构 预处理、存储、挖掘和解释  掌握数据挖掘常用方法  掌握大数据的 3 种来源:核心数 据、外围数据、常规渠道数据 本章从大数据处理流程、数据来源、大数据生态圈及主要架构、数据挖掘的主 要方法几个方面来介绍大数据的相关技术。 大数据金融与征信 2.1 大数据处理流程 大数据的处理流程归纳为:首先利用多种轻型数据库收集海量数据,对不同来源的数 据进行预处理后,整合存储到大型数据库中;然后根据企业或个人目的和需求,运用合适 的数据挖掘技术提取有益的知识;最后利用恰当的方式将结果展现给终端用户。具体包 括:数据采集、数据预处理、数据存储、数据挖掘及数据解释这5 个步骤,如图2.1 所示。 图2.1 大数据的处理流程 2.1.1 数据采集 大数据的采集是大数据处理过程中的第一步,它是数据分析和挖掘的基础。大数据的 采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、非结构化数据 进行采集的过程。采集的数据大部分是瞬时值,还包括某时段内的特征值。大数据的主要 来源有商业数据、互联网数据、传感器数据。针对不同来源的数据,具有不同的采集方 法。主要的大数据采集方法有系统日志采集方法、网络数据采集方法、其他数据采集方法。 1. 系统日志采集方法 大多数互联网企业都有自己的海量数据采集工具,常用于系统日志采集,如 Scribe、 Flume 、Chukwa 、Kafka 等。Scribe 是 Facebook 开源的日志收集系统,能够从各种日志源 收集日志,存储到一个中央存储系统中,以便于进行集中统计分析和处理;Chukwa 属于 Hadoop 系列产品,是一个大型的分布式系统监测数据的收集系统,提供了很多模块以支持 Hadoop 集群分析;Flume 是cloudera 的开源日志系统,能够有效地收集汇总和移动大量的 实时日志数据。这些工具均采用分布式架构,能满足每秒数百MB 的日志数据采集和传输 需求。 2. 网络数据采集方法 网络数据采集是指利用互联网搜索引擎技术从网站抓取数据信息。目前,网络数据的 采集基本上是利用垂直搜索引擎技术的网络爬虫或数据采集机器人、分词系统、任务与索 引系统等技术进行综合运用而完成。该方法可以将非结构化数据从网页中抽取出来,将其 存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或 附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采 46 大数据相关技术 第 2 章 集可以使用DPI 或DFI 等带宽管理技术进行处理。 3. 其他数据采集方法 对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或 研究机构合作,使用特定系统接口等相关方式采集数据。 在大数据的采集过程中,同一网站同一时间可能会有很多用户访问和操作。例如,火 车票售票网站和淘宝,它们并发的访问量在峰值时超过了上百万,并发数十分高。因此, 需要在采集端部署大量数据库才能支撑。 2.1.2 数据预处理 由于第一步收集得到的数据是原始数据,存在着不完整、不一致的问题,无法直接存 储到数据库中进行数据挖掘。因此,在将来自前端的数据导入一个集中的大型数据库或者 分布式存储集群前,需要对大数据进行预处理,这样不但能够节约大量的空间和时间,还 能得到更好的数据挖掘结果。大数据预处理包括对数据进行清理、集成、变换和归约 4 个 过程。 1. 数据清理 数据清理是数据准备过程中最乏味也是最关键的一步。其目的是填补缺失的数据、平 滑噪声数据、删除冗余数据、纠正错误数据、清除异常数据,将原始的数据格式进行标 准化。 2. 数据集成

文档评论(0)

fkh4608 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档