数据挖掘基础技术及应用分析报告.pptx

;数据挖掘是什么;;基本过程及数据流;知识结构;相关工具;基本任务/目标及工具;输入输出;基本任务/目标及工具;基础统计分析(回归分析);基础统计分析(回归分析);基础统计分析(回归分析);基本任务/目标及工具;特征没有万能和精确的定义,特征的精确定义往往由问题或者应用类型决定。 特征提取最重要的一个特性是“可重复性”:同一场景的不同数据所提取的特征应该是相同的。;特征提取(降维);特征提取(降维);特征提取(降维);特征提取(降维的数学小知识);特征提取(维度变换);特征提取(PCA);?;基本任务/目标及工具;分类与预测问题一般是“监督学习”问题,也即训练数据集中带有用于训练模型输出的指示变量。无论是分类还是预测模型,数据的变现形式基本一致,区别在于分类模型的指示变量为离散数值,而预测模型的指示变量一般为连续数值。;分类与预???(基本概念);分类与预测(回归分析);目标:输出树形数据结构,叶子节点为决策结果,其他节点为决策准则,自根节点向下则是决策的过程。如下例子所示的鸢尾花分类(3个类别)问题,输入数据有2个自变量(维度),分别是花瓣宽度及长度。当新数据来临时,从根节点开始向下执行决策,如发现花瓣宽度为1.3、花瓣长度为5.2,则决策过程如图中高亮路径所示,可知该数据的分类结果为“virginica”类型的鸢尾花。;?;基础知识;?;人工神经网络(Artificial Neural Network,缩写ANN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。;单层感知机:加权和→传递函数;单层感知机:加权和→传递函数→反馈输入;单层网络:线性分类,可使用一条直线把数据进行分类。;线性不可分:无法使用一条直线对数据进行分类,使用多层网络。;线性不可分:无法使用一条直线对数据进行分类,使用多层网络。;多层网络本质上是非线性映射,理论上可用于拟合任意复杂的函数。;多层网络也可拟合多个输出。;SVM的输出是一个“超平面”,这个超平面可能是高维的,甚至可能是无限维的。在分类任务中,SVM的基本理念是将决策面(超平面)放置在一个位置,使两类中所有点距离这个位置最远。考虑两类线性可分问题,如果要在两个类之间画一条线,有多种方法,但按照SVM的理念,会先找两类之间最大的空白间隔,然后在空白间隔的中点画一条线,这条线平行于空白间隔。通过核函数,可以使SVM能对非线性可分的任务进行分类。;核函数:对样本数据的维度进行扩展,如1维数据可以扩展到2维甚至更高,使样本数据在更高维度的空间中线性可分;分类与预测(SVM);分类与预测(SVM);SVM可视化实验。;?;基本任务/目标及工具;聚类分析(cluster)是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。;K-means:人工输入类别数目,随机初始化聚类中心,样本数据向聚类中心聚集。;Expectation-maximization(期望最大化):;“大数据”以外的思考;还有很多相关工具,同志们仍需努力??;

文档评论(0)

1亿VIP精品文档

相关文档