机器学习与数据挖掘.pptVIP

下载本文档

11
0
约3.59千字
约 39页
2017-02-22 发布于上海
举报
版权申诉

机器学习与数据挖掘.ppt

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习与数据挖掘

机器学习与数据挖掘特征选择与特征降维维数灾难 Curse of Dimensionality 随着维数的增加，特征空间的体积指数增加，从而导致各方面的成本指数增加样本数量存储空间计算量 …… 图灵可计算问题：多项式复杂度涉及高维空间的算法是不可计算的！？维数灾难维数灾难的几个表现空间采样维数灾难维数灾难的几个表现索引困难维数灾难维数灾难的几个表现样本稀疏总样本：1000 每维划分：4 1维：1000/4 = 250 样本/区间 2维：1000/(4*4) = 62.5 样本/区间 10维：1000/(4^10) = 0.001 样本/区间维数灾难维数灾难的几个表现噪声影响特征空间：101维正负样本在第一维的距离：1 样本在其余维的噪声：10% “噪声距离”： ?即使噪声只有10%，高维空间的“噪声距离”足以掩盖正负样本的本质区别维数灾难高维空间的奇异特性维数灾难数学理论偏好较低维数的空间要在特征空间进行合理密度的采样，特征维数超过5都是非常困难的实际问题偏好较高维数的空间问题的复杂性特征的完备性 ?特征降维维数灾难更多的特征可能导致分类性能反而下降维数灾难特征降维的途径去除无用特征特征的必要性：不必要的特征对训练无用特征选择去除相关分量特征的相关性：相关的多个特征可以变换成较少的不相关分量特征变换/特征降维特征选择从整个特征集中选择最有效的子集如何评价特征“有效性”？互信息量，测试，…… 如何决定阈值？指定维数指定“有效性”指标指定性能增量式、减量式性能评价特征选择特征有效性评价从概率论的角度协方差两个随机变量不相关：协方差为0 随机变量相关度与协方差正相关问题：协方差是两个变量的总方差如果某变量方差大，则协方差也大特征选择特征有效性评价从概率论的角度相关系数（归一化协方差）值域范围：[-1, +1] 绝对值越大，相关性越大一般使用其平方作为特征选择指标特征选择特征有效性评价从数理统计的角度（假设检验）测试 T测试 ?自己翻课本查公式与相关系数在理论上非常接近，但更偏重于有限样本下的估计特征选择特征有效性评价从信息论角度把机器学习过程看做通信特征是编码目标函数是信息特征包含的有关目标函数的信息越多，则从特征解出的信息就越多?完全编码目标函数需要的额外特征就越少各种信息量/熵衡量指标特征选择特征有效性评价从信息论角度条件熵与“相关性”负相关信息增益相对信息增益 /tutorials/infogain.html 特征选择特征有效性评价从信息论角度互信息量(Mutual Information) KL-距离特征选择特征有效性评价 IR领域的度量（逆）文档词频(inverse document frequency) 特征选择特征有效性评价 IR领域的度量词强度(term strength) 已知一个词(特征)在某文档(实例)中出现，该词在同类(目标函数值相同)文档中出现的概率为词强度特征选择特征有效性评价学习相关的度量分类准确率用单一维特征进行分类训练，某种分类准确率指标作为特征的有效性度量复杂度较大不一定有合适的准确率指标特征选择选择方法独立选择指定维数如何确定？指定阈值如何确定？特征的组合可能比单个的特征有效 ?联合选择特征选择联合选择减量法 F ={全体特征} 计算在F上的分类性能 F? = F -{f} f可以用评价准则选择，也可以遍历所有特征计算在F?上的分类性能如果分类性能不降低： F=F?，循环否则结束特征选择联合选择增量法 F ={f1} 计算在F上的分类性能 F? = F +{f 2} f1、 f2可以用评价准则选择，也可以遍历所有特征计算在F?上的分类性能如果分类性能增加： F=F?，循环否则结束特征选择联合选择增/减量法优缺点复杂度关于维数为或选单个特征采用评价准则排序的方式为一次选单个特征采用测试全部特征的方式为二次本质上是贪心算法某些组合无法遍历可能陷入局部极值特征选择联合选择全组合遍历 NP难特征选择联合选择模拟退火/遗传算法（通用的优化算法）随机生成一批解可以用梯度下降法迭代到局部极值用现有解通过操作合成新的解不要求合成操作具有任何理论依据好的合成操作将极大提高解题效率对新生成的解进行生存选择同上，并可用梯度下降法迭代到局部极值迭代直到收敛或已支付预期的计算量特征选择模拟退火/遗传算法理论依据梯度下降法（爬山法）往往陷入局部极值非梯度下降手段使解“跳”到爬山法可求解范围不同的非梯度下降手段产