FreeRCH大数据一体化平台开发框架.docx

下载文档

0
0
约8.1万字
约 112页
2024-07-18 发布于广东
举报
版权申诉
保障服务

FreeRCH大数据一体化平台开发框架.docx

1、本文档共112页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

FreeRCH大数据一体化平台

开

发

框

架

第一章大快大数据一体化开发框架概述 4

1.1什么是大数据 4

1.2开发大数据需要什么技术 5

1.3Hadoop的由来 5

1.4什么是大数据一体化开发框架 6

1.5框架的构成模块 6

1.6大快大数据平台 7

1.7大数据相对于传统数据处理方式的优势与不同 11

1.8大数据相对传统关系型数据库的不足 11

1.9组件集成情况列表 12

第二章数据源与SQL引擎 16

2.1关系型数据库（SQL数据库）与大数据平台之间的数据导入导出 16

2.2本地文件与大数据平台之间导入导出 19

2.3SQL引擎 22

第三章数据采集 27

3.1创建用户 27

3.2修改用户密码 28

3.3获得用户ID（corID） 28

3,4创建任务 29

3.5获得任务ID（taskID） 31

3.6启动任务 32

3.7停止任务 33

3.8删除任务 33

3.9获得某任务采集数量 34

3.10获得爬虫采集数据（json格式） 34

3.11获得爬虫采集元素数据（json格式） 35

3.12获得爬虫采集元素数据（txt格式） 36

第四章数据处理 38

4.1数据清洗 38

4.2数据统计 43

4.3数据分析 46

4.4数据分析场景中的算法应用 51

第五章搜索引擎 53

5.1数据导入搜索引擎 53

5.2搜索引擎导出到本地文件夹 56

5.3实时数据导入到搜索引擎及HIVE 58

5.4用户搜索 61

第六章自然语言处理（NLP） 68

6.1基本处理 68

6.2文本分类（相似性）处理 74

第七章机器学习算法库 78

7.1LR（逻辑回归） 78

7.2RandomForest(随机森林) 80

7.3SVM(支持向量机) 82

7.4PCA(主成分分析) 84

7.5K-means(K均值) 86

7.6GaussianMixtures（高斯混合模型） 88

7.7NaiveBayes(朴素贝叶斯) 89

7.8FP-growth(FP-growth) 91

7.9ALS(交替最小二乘法的协同过滤算法） 93

大快大数据一体化开发框架概述

众所周知，我们今天的大数据技术源自搜索引擎。人类进入21世纪后，随着互联网的爆发，数据呈现出爆炸式的增长。谷歌的爬虫程序每天下载的网页超过1亿个（2000年数据），这直接推动了海量数据处理技术的发展。

谷歌公司随之提出了大表、分布式文件系统和分布式计算的三大技术构架，解决了海量数据处理的问题。谷歌公司随即将设计思路开源，发表了具有划时代意义的三篇论文，很快，根据谷歌的设计思路的开源框架就出现了，这也是今天大家熟知的HADOOP、MAPREDUCE和许多NOSQL系统。这三大技术也是整个大数据技术的核心基础。

使用搜索引擎的技术，来处理海量数据，成为一种新的商业价值，我们将其称之为大数据。因此，有人这样形容:从应用上来说，搜索引擎是一种大数据应用，但是从技术上来说，大数据技术只是搜索引擎技术的一个子集，能做搜索引擎的公司，一定能作大数据。但是，从事大数据技术的公司，却未必能作搜索引擎。

什么是大数据

进入本世纪以来，尤其是2010年之后，随着互联网特别是移动互联网的发展，数据的增长呈爆炸趋势，已经很难估计全世界的电子设备中存储的数据到底有多少，描述数据系统的数据量的计量单位从MB（1MB大约等于一百万字节）、GB（1024MB）、TB（1024GB），一直向上攀升，目前，PB（等于1024TB）级的数据系统已经很常见，随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传感器网络数据量的不断加大，国内拥有的总数据量早已超出ZB（1ZB=1024EB，1EB=1024PB）级别。

这些数据有两个特点，一个是“数据量大”，一个是“数据数量和种类全”

。可以用“大而全”来概括。所以说：大数据胜于好算法。对于许多应用来讲，采用一个基于小数据量的好算法，结果的准确性往往不如一个基于大量可用数据一般算法计算的结果。

传统的数据处理方法是：随着数据量的加大，不断更新硬件指标，采用更加强大的CPU、更大容量的磁盘这样的措施，但现实是：数据量增大的速度远远超出了单机计算和存储能力提升的速度。

而“大数据”的处理方法是：采用多机器、多节点的处理大量数据方法，而采用这种新的处理方法，就需要有新的大数据系统来保证，系统需要处理多节点间的通讯协调、数据分隔等一系列问题。

总之，采用多机器、多节点的方式，解决各节点的通讯协调、数据协调、计算协调问题，处理海量数据的方式，就是“大数据”的思维。其特点是，随着数据量的不断加大，可以增加机器数量，水平扩展，一个大数据系统，可以多达几

您可能关注的文档

文档评论（0）

地产领驭 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

FreeRCH大数据一体化平台开发框架.docx