- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用基础-分类算法115大数据应用基础-分类算法115
分类算法
大数据应用基础
魏炜
1
大数据复习
2
大数据的核心是什么
大数据人才可以分为分析人才和架构人才。
其中,需求量最大的是分析人才。
而分析的核心是数据挖掘。
大数据目前的发展重点是怎么对非结构化数据进行数据挖掘。
物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。
3
大数据的核心——非结构化数据
结构化数据的分析相对比较成熟,比如Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。
对于非结构化数据,难点在于:
数据收集与集成:设法通过各种设备收集数据,并把各种数据来源集成起来。例如,围绕一个人,怎样能从公司内部和外部的各种渠道,收集他多方面的数据,把其中的非结构化数据转化成结构化数据,然后把各种数据集成起来,从而用一个特征向量来表示他的特征。
数据分析:怎样分析这种高维度的数据。非结构化数据的维度是无止境的,比如百度能分析几十亿维的特征。
4
大数据架构技术的核心
主要有两种计算:
离线分布式计算
这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖掘算法、非结构化数据特征的提取(例如搜索引擎索引的编制)、推荐算法等。
它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能是几分钟、几小时或更长时间,因此有时还需要用在线计算加以补充。
主要的开源技术是Hadoop。这也是最热门的大数据架构技术。
很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。
在线分布式计算
可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反应时间、广告交易平台的更新时间都在0.1秒以内。
相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。
5
大数据架构技术的核心
此外,还有一种重要技术,叫内存计算。
原理是:在内存里计算比在硬盘里计算快得多。
这种技术使用的前提就是内存足够大。商用方案有SAP Hana等。
它可以和分布式计算结合。例如,开源平台Spark就采取这种思路。
6
大数据技术中的算法
大数据技术中的算法不只是数据挖掘。
除了数据挖掘,典型的计算任务还有:
搜索引擎中的文本特征提取,即相对词频计算
推荐系统中的用户间相似度计算、物品间相似度计算等
不过,数据挖掘无疑是最重要的一大类算法。
7
数据挖掘的概念辨析
和统计相比,数据挖掘倾向于处理大规模数据,并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前,常常对变量间的关系做假设;而数据挖掘的重点在于预测的结果,不一定追究预测的依据。
数据挖掘和人工智能、机器学习的重合度非常高。不过,早先的人工智能侧重于由人工设定规则,而当今越来越重视从数据中自动获得知识、
对于非结构化数据的挖掘,通常需要把非结构化数据转化成结构化的形式,然后再采用数据挖掘算法。
数据挖掘不只是要重视算法,提高数据质量、理解应用领域也是不可或缺的。
8
数据挖掘的基本流程
9
数据挖掘算法分类
有监督学习:分类与回归
有标识。
通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。
无监督学习:聚类、关联规则
无标识
聚类:针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式。
关联规则:分析发现购买面包的顾客中有很大比例的人同时购买牛奶。由此,我们可以把面包和牛奶摆在同一个货架上。
此外,降维方法经常服务于数据挖掘算法
它把特征维度降低,从而使运算更快。
10
数据挖掘算法分类
此处观看案例视频
11
高度重视以下同义词
以下术语大致是同一个意思:
表格中的行:个案=实例=记录=样本点=数据点
表格中的列:属性=特征=字段=维度=预测变量=自变量
12
数据准备的重要性
没有高质量的数据,就没有高质量的挖掘结果。
数据准备工作占用的时间往往在60%以上!
13
分类模型的评价
模型算法质量的评价是很重要的一部分。对分类模型和聚类模型的评价方法是不同的。
对于分类模型,通常用一些指标来进行模型评价和选择。通常采用的指标有: ROC曲线、Lift曲线。其本质都是与预测的准确性有关的。
分类模型评价的主要宗旨就是:减少误判(假阳性)和漏判(假阴性)。
我们可以对不同的分类算法,设置不同的参数,进行反复比较,根据在多个效果指标(比如ROC曲线的AUC值、Lift曲线)上是否有稳定的好的表现,选择一个最终落地应用的模型。
14
分类的步骤——数据集的划分
把过去的数据分成两份,其中一份当做训练集,另一份当做测试集(用来模拟“未来的”数据)。通常,我们会将大多数数据作为训练集(比如80%),而少数数据作为测试集。
历史数据中每行都要有输入数据(输入变量值)和输出数据(目标变量值)。
15
分类的步骤——模型的训练与使用
您可能关注的文档
最近下载
- 2023年下半年广西普通高中学业水平合格性考试数学真题试卷含答案.docx VIP
- 量子计算性能评估基准研究报告 202412.pdf VIP
- 全国第三届职业技能大赛(劳动关系协调师)选拔赛理论考试题库(含答案).docx VIP
- 胃癌临床表现.pptx VIP
- 不不兔课件.ppt VIP
- 《无机化学与化学分析》课程思政案例.docx VIP
- 2025辽宁沈阳城市建设投资集团所属企业沈阳国际工程咨询集团有限公司招聘11人笔试备考试题及答案详解.docx VIP
- (高清版)DB5119∕T 21-2021 地理标志产品 江口醇酒生产技术规范 .pdf VIP
- 拆除工程安全技术规范.pdf VIP
- 考研真题 天津外国语大学801英语语言文学(英美文学方向)历年考研真题汇编.docx VIP
文档评论(0)