- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
;第四章机器学习;机器学习概述;机器学习概述;机器学习概述;数据预处理;数据预处理;一个结构完成的数据集是机器学习的基础,没有高质量的数据,就没有高质量的机器学习结果(高质量的预测必须依赖于高质量的数据)。然而现实世界获取的数据集合常常伴有大量的噪声,‘脏数据’以及存在着错误、或异常(偏离期望值)的数据。例如:一个数据集中通常会存在以下问题:
●数据缺失(Incomplete)是属性值为空的情况。
●数据噪声(Noisy)是数据值不合常理的情况。
●数据不一致(Inconsistent)是数据前后存在矛盾的情况。
●数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况。
●数据集不均衡(Imbalance)是各个类别的数据量相差悬殊的情况。
●离群点/异常值(Outliers)是远离数据集中其余部分的数据。
●数据重复(Duplicate)是在数据集中出现多次的数据。;1、数据清洗
数据清洗是整个数据预处理过程中非常重要的一个环节,其结果质量直接关系到机器学习建模效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间,数据清洗的主要内容包括:
(1)缺失值清洗
●确定缺失值范围。
●去除不需要的字段。
●填充缺失内容。
(2)格式内容清洗
●时间、日期、数值、全半角等显示格式不一致
●内容中有不该存在的字符
●内容与该字段应有内容不符
;2.数据转换
数据标准化是将样本数据的属性缩放到某个指定的范围。数据标准化的原因:某些算法要求样本具有零均值和单位方差;需要消除样本不同属性具有不同量级时的影响:①数量级的差异将导致量级较大的属性占据主导地位;②数量级的差异将导致迭代收敛速度减慢;③依赖于样本距离的算法对于数据的数量级非常敏感。
;3.数据描述
数据的一般性描述有Mean,Median,Mode,Variance。其中Mean是均值;Median是中位数,取数据排序后在中间位置的值,避免因为极端离群点影响客观评价;Mode是出现频率最高的元素,其使用的比较少;Variance是方差衡量数据集与其均值的偏离。
数据之间的相关性可以使用Pearsoncorrelationcoefficient(皮尔森相关系数)和Pearsonchis-quare(皮???森卡方检验)进行度量。前者适用与有Metricdata的情况,后者适用于分类统计的情况。
Pearson相关系数(PearsonCorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
皮尔森卡方检验是一个样本中已发生事件的次数分配会遵守某个特定的理论分配。;4.特征选择
在我们做特定分析的时候,可能属性非常多,但有些属性是不相关的,有些属性是重复的,所以我们需要用特征选择挑选出来最相关的属性降低问题难度。我们可以通过熵增益(Entropyinformationain)、分支定界(Branchandbound)等方式进行特征选择。特征选择还有Sequentialforward(序列前向选择),Sequentialbackward(序列反向选择),Simulatedannealing(模拟退火),Tabusearch(竞技搜索),Geneticalgorithms(遗传算法)等方式去优化。为了提高复杂关系的拟合能力,在特征工程中经常会把一些离散特征两两组合,构成高阶特征,提高机器学习算法的拟合能力。;01机器学习基础;模型训练
在机器学习流程中,在对于数据集进行预处理以后,需要利用训练集建立预测模型,然后将这种训练好的模型应用于测试集(即作为新的、未见过的数据)上进行预测。根据模型在测试集上的表现来选择最佳模型,为了获得最佳模型,还需要进行参数优化。在进行模型训练时可以使用例如梯度下降方法,加速机器学习算法的训练速度和寻找最优参数的速度。
;梯度下降(Gradientdescent)在机器学习中应用十分的广泛,不论是在回归分析还是分类分析中都有广泛的应用,它的主要目的是通过迭代计算找到目标函数的最小值,或者收敛到最小值。梯度下降法的基本思想可以看成是一个下山的过程。假设场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径无法通过肉眼确定,必须利用自己周围的信息一步一步地找到下山的路。这个时候,便可利用梯度下降算法来帮助自己找到下山的路。具体方法:首先以当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着下降方向走一步,然后又继续以当前位置为基准,再找最陡峭的地方,再走直到最后到达最低处;同理上山也是如此,只是这时候就变成梯度上升算
您可能关注的文档
- 《人工智能基础(python)》课件——任务6 信息系统数据文件操作.pptx
- 《人工智能基础(python)》课件——任务7 信息系统综合实现.pptx
- 《人工智能技术基础》课件——第八章 计算机视觉.pptx
- 《人工智能技术基础》课件——第二章 人工智能产业.pptx
- 《人工智能技术基础》课件——第九章 自然语言处理.pptx
- 《人工智能技术基础》课件——第六章 知识图谱.pptx
- 《人工智能技术基础》课件——第七章 TensorFlow深度学习框架.pptx
- 《人工智能技术基础》课件——第三章 Python程序设计基础.pptx
- 《人工智能技术基础》课件——第五章 深度学习.pptx
- 《人工智能技术基础》课件——第一章 人工智能概述.pptx
文档评论(0)