高教社唐九阳大数据技术基础教学课件第7章大数据分析技术.pptxVIP

下载本文档

5
0
约3.61千字
约 24页
2023-03-02 发布于广东
举报
版权申诉

高教社唐九阳大数据技术基础教学课件第7章大数据分析技术.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第七章大数据分析技术大数据技术基础大数据分析基础回归分析分类分析聚类分析深度学习酒店数据分析案例内容大纲大数据分析基础大数据处理与分析与各行各业密切相关，如金融领域、医疗领域等，具有学术价值和应用前景，已成为学术界和工业界共同关注的前沿技术。然而，传统处理与分析技术难以应用于大规模数据，影响了分析的准确性和应用效果。在大数据上的机器学习，需要处理全量数据并进行大量的选代计算，这就要求机器学习平台具备强大的处理能力和分布式计算能力。随着分布式文件系统的出现，可以对海量数据进行存储和管理，并在全量数据上进行分布式学习。大数据分析基础Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark提供了一个基于海量数据的机器学习库Mllib（Machine Leaming Library），旨在简化机器学习的工程实践，并能够方便地扩展到更大规模数据。类型算法基本统计Summary Statistics, Correlations, Stratified Sampling, Hypothesis Testing, Random Data Generation分类与回归Support Vector Machines (SVM), Logistic Regression, Linear Regression, Naive Bay聚类K-Means, Gaussian Mixture Model, Latent Dirichlet allocation (LDA), Bisecting k-means特征抽取与转换TF-IDF, Word2Vee, StandardScalet表1 MLlib支持的机器学习算法回归分析回归分析（regression analysis）是一种用于确定两种或两种以上变量间相互依赖关系的统计分析方法，用于预测连续型数值。按照问题所涉及变量的多少，可将回归分析分为一元回归分析（包含一个自变量）和多元回归分析（包含多个自变量）。按照自变量和因变量（目标变量）之间是否存在线性关系，分为线性回归和非线性回归分析。线性分析? 线性分析? 广义线性回归? 分类分析分类是一种重要的数据分析任务，目标是构建分类器（classifier），根据数据的特征将其划分为特定的类别。分类属于有监督学习，包括学习和预测两个阶段。学习阶段对标注样本所属类别的训练集进行分析，建立基于样本特征区分类别的分类器，预测阶段采用分类器预测未知样本所属的类别。分类器不同，基于特征判定类别的原理也不同。常见的分类算法包括决策树分类器、贝叶斯分类器等。决策树分类方法决策树是一类常见的分类方法，采用树结构描述根据特征对样本进行分类的规则。周志华教授在《机器学习》一书中给出判断西瓜是否是好瓜的一个决策树。构造决策树的基本流程从根节点出发，采用信息增益、增益率或基尼指数（Gini）等指标，每次选择一个最优划分特征，对应决策树的一个结点，每个结点包含的样本集合，根据特征取值被划分到若干子节点中，对应若干分支，依次递归迭代，从根节点到每个叶节点的路径对应了一个判定样本分类的决策序列。图1 判断西瓜是否是好瓜的决策树贝叶斯分类方法? 贝叶斯分类方法? 聚类分析聚类分析（Cluster Analysis）属于无监督学习方法，用于对未知类别的样本进行划分。基于特定的性能和距离度量，聚类分析把数据对象划分成若干个类簇，把相似(距离相近)的样本聚在同一个类簇中，把不相似的样本分为不同类簇，揭示样本之间内在的性质以及相互之间的联系规律。典型的聚类方法有k-均值（k-means）、k-中心点（k-medoids）、高斯混合模型（Gaussian Mixture Model）等。 k-均值聚类? 高斯混合模型? 高斯混合模型L无法直接通过解析方式求得解，故可采用“期望-最大化”（Expectation-Maximization，EM）方法求解。具体过程如下:根据给定的K值，初始化K个多元高斯分布以及其权重。根据贝叶斯定理，估计每个样本由每个成分生成的后验概率（EM方法中的E步）。根据均值，协方差的定义以及(2)中求出的后验概率，更新均值向量、协方差矩阵和权重（EM方法中的M步)。重复2和3，直到似然函数增加值已小于收敛值，或达到最大选代次数。相对于k-means等直接给出样本点的族划分的聚类方法，GMM这种给出样本点属于每个簇的概率的聚类方法，被称为软聚类（Soft Clustering / softgnment）。深度学习近几十年来，随着传感器和互联网的普及和发展，各个领域积累了海量的大数据，计算机的存储和计算能力也日新月异，为基于统计的数据分析和挖掘方法提供了可能。深度学习是统计学习方法的最新成果，引发了人工神经网络的热潮，在图像、自然语言

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

文档贡献者

副教授持证人

知识共享

咨询Ta 进入空间

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

更多 >

高教社唐九阳大数据技术基础教学课件第7章大数据分析技术.pptxVIP