数据与数据预处理技术.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据与数据预处理技术;内容;3;4;5;6;7;8;9;January4,2024;11;12;13;数据分布特征:离散度;数据分布特征:离散度(续);分布特征的可视化示例:盒图;分布特征可视化:直方图;分布特征可视化:分位数图;分位数-分位数图(q-q图);分布特征可视化:散布图;Loess曲线;22;23;24;25;26;27;VisualizingComplexDataandRelations;预处理的意义-

为什么要预处理数据?;数据质量;数据预处理的主要任务;1数据清理;1.1空缺值;1.1处理空缺值;1.2噪声数据;1.2处理噪声数据;1.2.1数据平滑的分箱方法;1.2.2聚类;1.2.3回归;2数据集成与变换;2.1处理数据集成中的冗余数据;2.2数据变换 ;2.2.1数据变换——规范化;44;45;主成分分析;主成分的定义及导出;;同时我们还得到

为了使方差最大,选择具有最大特征值的特征向量,因此,第一个主成分是输入样本的协方差阵的具有最大特征值对应的特征向量;第二个主成分也应该最大化方差,具有单位长度,并且与正交

对于第二个主成分,我们有

关于w2求导并令其为0,我们有

;;在实践中,即使所有的特征值都大于0,我们知道,某些特征值对方差的影响很小,并且可以丢失,因此,我们考虑例如贡献90%以上方差的前k个主要成分,当降序排列时,由前k个主要成分贡献的方差比例为

;总方差中属于主成分的比例为

称为主成分的贡献率。

第一主成分的贡献率最大,表明它解释原始变量

的能力最强,而的解释能力依次递减。

主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。;;主成分分析的应用;一种应用直观的解释;奇异值分解

;奇异值分解定理

;例如:;计算结果;SVD在属性约简中的应用;图像处理中的例子;lena原图;3数据归约;;3.1数据立方体聚集;3.2维归约;3.3数据压缩;3.4数值归约;3.4.1直方图;3.4.2聚类;3.4.3选样;3.4.4选样——SRS;选样——聚类/分层选样

避免随机选样过程中损失小的聚类模式丢失;3.5离散化;3.5.1离散化和概念分层;3.5.1数据数值离散化和概念分层生成;(1)通过自然划分分段;(2)自然划分的3-4-5规则;3-4-5规则——例子;3.5.2分类数据的概念分层生成;(1)由用户或专家在模式级说明;(2)通过显式数据分组说明分层结构;(3)说明属性集,但不说明它们的偏序;(4)只说明部分属性集;小结

文档评论(0)

浙江工程信息通 + 关注
实名认证
服务提供商

网络工程师持证人

本人已从事浙江省工程咨询5年,对浙江省内工程信息非常熟悉,可获取新建工程相关联系人、设计院、业主等关键信息。另外从事楼宇自控专业已10年,考取了一建二建等资格证书,有关考试方面的问题(考试心得、方法、学习资料等)都欢饮来咨询交流。

领域认证该用户于2023年05月11日上传了网络工程师

1亿VIP精品文档

相关文档