- 0
- 0
- 约1.75千字
- 约 16页
- 2024-03-26 发布于陕西
- 举报
第三章数据智能之利器
第一节大数据问题构建1
2一、大数据问题的构建
3.1.1问题确定:分类问题、回归问题输入变量与输出变量均为连续变量的预测问题是回归问题;输出变量为有限个离散变量的预测问题成为分类问题;输入是一个观测序列,输出的是一个标记序列或状态序列的预测问题成为标记问题,可以认为标记问题是分类问题的一个推广。
3一、大数据问题的构建
分类问题分类问题是监督学习的一个核心问题。在监督学习中,当输出变量取有限个离散值时,预测问题便成为分类问题。
4一、大数据问题的构建
分类问题评价分类器性能的指标一般是分类的准确率。许多的机器学习方法可以用来解决分类问题,常用的主要包括包括朴素贝叶斯法、决策树、SVM、K近邻、神经网络等。
5一、大数据问题的构建
常用分类算法的优缺点算法优点缺点贝叶斯分类法1)所需估计的参数少,对于数据缺失不敏感。2)有着坚实的数学基础,以及稳定的分类效率。1)需要假设属性之间相互独立,往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋。)2)需要知道先验概率。3)分类决策存在错误性。决策树1)不需要任何领域知识或参数假设。2)适合高维数据。3)易于理解。4)短时间内处理大量数据,得到可行且效果较小的结果。5)能够同时处理数据性和常规性属性。1)对于各类别样本数量不一致数据,信息增益偏向于那些有更多数值的特征。2)易于过拟合。3)忽略属性之间的相关性。4)不支持在线学习。
6一、大数据问题的构建
常用分类算法的优缺点算法优点缺点支持向量机1)可以解决小样本下机器学习的问题。2)提高泛化性能。3)可以解决高维、非线性问题。4)避免神经网络结构选择和局部极小的问题。1)对缺失数据敏感。2)内存消耗大,难以解释。3)运行和调参略费时。K近邻1)计算量太大。2)对于样本分类不均衡的问题,会产生误判。3)需要大量的内存。4)输出的可解释性不强。
7一、大数据问题的构建
常用分类算法的优缺点算法优点缺点神经网络1)分类准确率高。2)并行处理能力强。3)分布式存储和学习能力强。4)鲁棒性较强,不易受噪声影响。1)需要大量参数(网络拓扑、阈值)2)结果难以解释。3)训练时间过长。
8一、大数据问题的构建
回归问题回归问题也属于监督学习中的一类。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题按照输入变量的个数,可以分为一元回归和多元回归;按照输入变量与输出变量之间关系的类型,可以分为线性回归和非线性回归。
9?一、大数据问题的构建
10一、大数据问题的构建
回归问题可借用如下框图加深理解:回归问题
11一、大数据问题的构建
3.1.2数据集准备:有监督学习、无监督学习有监督学习有监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。有监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。有监督学习的目标往往是让计算机去学习我们已经创建好的分类系统。
12一、大数据问题的构建
有监督学习有监督学习是训练神经网络和决策树的常见方法。隐藏层输入层输出层
13一、大数据问题的构建
无监督学习无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。无监督学习的样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,分簇)试图使类内差距最小化,类间差距最大化。
14一、大数据问题的构建
无监督学习用途利用聚类结果,可以提取数据集中隐藏信息,对未来数据进行分类和预测。应用于数据挖掘,模式识别,图像处理等。PCA和很多k-means算法都属于无监督学习。
15两者的不同点1.有监督学习方法必须要有训练集与测试样本。2.有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。3.无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。一、大数据问题的构建
16Thanks!
原创力文档

文档评论(0)