- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 2 章
大数据相关技术
掌握大数据处理流程:数据采集、 掌握大数据的主要架构
预处理、存储、挖掘和解释 掌握数据挖掘常用方法
掌握大数据的 3 种来源:核心数
据、外围数据、常规渠道数据
本章从大数据处理流程、数据来源、大数据生态圈及主要架构、数据挖掘的主
要方法几个方面来介绍大数据的相关技术。
大数据金融与征信
2.1 大数据处理流程
大数据的处理流程归纳为:首先利用多种轻型数据库收集海量数据,对不同来源的数
据进行预处理后,整合存储到大型数据库中;然后根据企业或个人目的和需求,运用合适
的数据挖掘技术提取有益的知识;最后利用恰当的方式将结果展现给终端用户。具体包
括:数据采集、数据预处理、数据存储、数据挖掘及数据解释这5 个步骤,如图2.1 所示。
图2.1 大数据的处理流程
2.1.1 数据采集
大数据的采集是大数据处理过程中的第一步,它是数据分析和挖掘的基础。大数据的
采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、非结构化数据
进行采集的过程。采集的数据大部分是瞬时值,还包括某时段内的特征值。大数据的主要
来源有商业数据、互联网数据、传感器数据。针对不同来源的数据,具有不同的采集方
法。主要的大数据采集方法有系统日志采集方法、网络数据采集方法、其他数据采集方法。
1. 系统日志采集方法
大多数互联网企业都有自己的海量数据采集工具,常用于系统日志采集,如 Scribe、
Flume 、Chukwa 、Kafka 等。Scribe 是 Facebook 开源的日志收集系统,能够从各种日志源
收集日志,存储到一个中央存储系统中,以便于进行集中统计分析和处理;Chukwa 属于
Hadoop 系列产品,是一个大型的分布式系统监测数据的收集系统,提供了很多模块以支持
Hadoop 集群分析;Flume 是cloudera 的开源日志系统,能够有效地收集汇总和移动大量的
实时日志数据。这些工具均采用分布式架构,能满足每秒数百MB 的日志数据采集和传输
需求。
2. 网络数据采集方法
网络数据采集是指利用互联网搜索引擎技术从网站抓取数据信息。目前,网络数据的
采集基本上是利用垂直搜索引擎技术的网络爬虫或数据采集机器人、分词系统、任务与索
引系统等技术进行综合运用而完成。该方法可以将非结构化数据从网页中抽取出来,将其
存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或
附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采
46
大数据相关技术 第 2 章
集可以使用DPI 或DFI 等带宽管理技术进行处理。
3. 其他数据采集方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或
研究机构合作,使用特定系统接口等相关方式采集数据。
在大数据的采集过程中,同一网站同一时间可能会有很多用户访问和操作。例如,火
车票售票网站和淘宝,它们并发的访问量在峰值时超过了上百万,并发数十分高。因此,
需要在采集端部署大量数据库才能支撑。
2.1.2 数据预处理
由于第一步收集得到的数据是原始数据,存在着不完整、不一致的问题,无法直接存
储到数据库中进行数据挖掘。因此,在将来自前端的数据导入一个集中的大型数据库或者
分布式存储集群前,需要对大数据进行预处理,这样不但能够节约大量的空间和时间,还
能得到更好的数据挖掘结果。大数据预处理包括对数据进行清理、集成、变换和归约 4 个
过程。
1. 数据清理
数据清理是数据准备过程中最乏味也是最关键的一步。其目的是填补缺失的数据、平
滑噪声数据、删除冗余数据、纠正错误数据、清除异常数据,将原始的数据格式进行标
准化。
2. 数据集成
您可能关注的文档
最近下载
- 新解读《GB_T 6618-2009硅片厚度和总厚度变化测试方法》最新解读.docx VIP
- 英语专业四级(TEM4)词汇辨析.ppt VIP
- 2016款昂科威使用说明书.pdf VIP
- 三年级上册《体育与健康》全册教案.docx VIP
- YD∕T 2165-2017 通信用模块化交流不间断电源(可复制版).pdf
- 昂科威使用说明!昂科威问题汇总!从小白到高手的一瞬间!.doc VIP
- 2022蓝天消防JB-QB-5SI型火火报警控制器用户手册.docx VIP
- XXX加气站Z职业卫生预评价报告.pdf VIP
- Brunnstrom技术Brunnstrom技术Brunnstrom技术.ppt VIP
- “三全育人”工作实施意见.docx VIP
原创力文档


文档评论(0)