大数据建模与分析挖据课程大纲.docVIP

下载本文档

16
0
约2.7千字
约 3页
2019-07-17 发布于上海
举报
版权申诉

大数据建模与分析挖据课程大纲.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

时间内容提要授课详细内容实践训练第一天业界主流的数据仓库工具和大数据分析挖掘工具业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案业界数据仓库与数据分析挖掘平台软件工具 Hadoop数据仓库工具Hive Spark实时数据仓库工具SparkSQL Hadoop数据分析挖掘工具Mahout Spark机器学习与数据分析挖掘工具MLlib 大数据分析挖掘项目的实施步骤配置数据仓库工具Hadoop Hive和SparkSQL 部署数据分析挖掘工具Hadoop Mahout和Spark MLlib 大数据分析挖掘项目的数据集成操作训练日志数据解析和导入导出到数据仓库的操作训练从原始搜索数据集中抽取、集成数据，整理后形成规范的数据仓库数据分析挖掘模块从大型的集中式数据仓库中访问数据，一个数据仓库面向一个主题，构建两个数据仓库同一个数据仓库中的事实表数据，可以给多个不同类型的分析挖掘任务调用去除噪声项目数据集加载ETL到Hadoop Hive数据仓库并建立多维模型基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模应用实践基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 Hive数据仓库集群的平台体系结构、核心技术剖析 Hive Server的工作原理、机制与应用 Hive数据仓库集群的安装部署与配置优化 Hive应用开发技巧 Hive SQL剖析与应用实践 Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 Hive数据仓库报表设计将原始的日志数据集，经过整理后，加载至Hadoop + Hive数据仓库集群中，用于共享访问利用HIVE构建大型数据仓库项目的操作训练实践 Spark大数据分析挖掘平台实践操作训练 Spark大数据分析挖掘平台的部署配置 Spark数据分析库MLlib的开发部署 Spark数据分析挖掘示例操作，从Hive表中读取数据并在分布式内存中运行第二天聚类分析建模与挖掘算法的实现原理和技术应用聚类分析建模与算法原理及其在Spark MLlib中的实现与应用，包括： Canopy聚类（canopy clustering） K均值算法（K-means clustering）模糊K均值（Fuzzy K-means clustering） EM聚类，即期望最大化聚类（Expectation Maximization）以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 Spark聚类分析算法程序示例基于Spark MLlib的聚类分析算法，实现日志数据集中的用户聚类分类分析建模与挖掘算法的实现原理和技术应用分类分析建模与算法原理及其在Spark MLlib中的实现与应用，包括： Spark决策树算法实现逻辑回归算法（logistics regression）贝叶斯算法（Bayesian与Cbeyes）支持向量机（Support vector machine）以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。 Spark客户资料分析与给用户贴标签的程序示例 Spark实现给商品贴标签的程序示例 Spark实现用户行为的自动标签和深度技术基于Spark MLlib的分类分析算法模型与应用操作关联分析建模与挖掘算法的实现原理和技术应用预测、推荐分析建模与算法原理及其在Spark MLlib中的实现与应用，包括： Spark频繁模式挖掘算法（parallel FP Growth Algorithm）应用 Spark关联规则挖掘（Apriori）算法及其应用以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 Spark关联分析程序示例基于Spark MLlib的关联分析操作第三天推荐分析挖掘模型与算法技术应用推荐算法原理及其在Spark MLlib中的实现与应用，包括： Spark协同过滤算法程序示例 Item-based协同过滤与推荐 User-based协同过滤与推荐交叉销售推荐模型及其实现推荐分析实现步骤与操作（重点）回归分析模型与预测算法利用线性回归（多元回归）实现访问量预测利用非线性回归预测成交量和访问量的关系基于R+Spark实现回归分析模型及其应用操作 Spark回归程序实现异常点检测的程序示例回归分析预测操作例子图关系建模与分析挖掘及其链接分析和社交分析操作利用Spark GraphX实现网页链接分析，计算网页重要性排名实现信息传播的社交关系传递分析，互联网用户的行为关系分析任务的操作训练图数据的分析挖掘操作，实现微博数据集的社交网络建模与关系分析神经网络与深度学习算法模型及其应用实践神经网络算法Ne