- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
规范化 最小-最大规范化 z-score规范化 数据量纲不同,e.g. 身高、体重 离散化和概念分层 离散化(连续数据) 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层(标称数据) 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 离散化 分箱(binning) 分箱技术递归的用于结果划分 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 基于信息熵的方法等 Take Home Message 1、认识数据: 属性类型 数据集类型 数据的统计描述 (掌握) 数据的相似性度量 (重点,上机实习) 2、数据预处理 缺失值处理(重点,上机实习) 特征筛选(重点,上机实习) 归一化(重点,上机实习) * * * * * * * 如何处理噪声数据 聚类:(监测并且去除孤立点) 噪声处理-聚类 回归 x y y = x + 1 X1 Y1 Y1’ 如何处理噪声数据 2、数据集成 数据集成 数据集成: 将多个数据源中的数据整合到一个一致的存储中 模式集成: - 整合不同数据源中的元数据 - 实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no 检测并解决数据值的冲突 - 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的 - 可能的原因:不同的数据表示,不同的度量等等 数据集成-冗余数据 集成多个数据库时,经常会出现冗余数据 - 同一属性在不同的数据库中会有不同的字段名 - 一个属性可以由另外一个表导出,如“年薪” 仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。 有些冗余可以被相关分析检测到 数据集成-冗余数据处理 数值型 相关分析:(correlation /covariance) 标称数据 卡方检验 ( χ2 (chi-square) test ) 相关分析 (数值属性) 相关系数(皮尔逊相关系数) n样本个数, 和 属性A和B上的平均值, σA and σB分别为各自标准差,Σ(aibi) is the AB叉积 cross-product之和。 If rA,B 0, A and B 正相关 (A’s values increase as B’s). 值越大相关程度越高. rA,B = 0: 不相关; rAB 0: 负相关 相关分析 (数值属性) Scatter plots showing the similarity from –1 to 1. 相关分析 (数值属性) Covariance(协方差):衡量两个变量的变化趋势是否一致 N样本个数, 和 属性A和B上的均值, σA and σB分别为各自标准差. 正covariance: If CovA,B 0, 则A 和B 同时倾向于大于期望值. 负covariance: If CovA,B 0,则如果 A大于其期望值, B is likely to be smaller than its expected value. Independence: CovA,B= 0 but the converse is not true. Correlation coefficient: 相关分析 (标称属性) χ2 (chi-square) test 卡方检验 σij是(ai,bj)的观测频度(实际计数) eij是(ai,bj)的期望频度 N数据元组的个数 属 A 性 a1 a2 i? ac b1 B b2 j? br (A=ai,B=bj) 自由度: (c-1)*(r-1) Example χ 2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布数据计算得到) 下棋 不下棋 Sum (row) 看小说 250(90) 200(360) 450 不看小说 50(210) 1000(840) 1050 Sum(col.) 300 1200 1500 自由度为(2-1)*(2-1)=1,查表结果表明p 0.001 (χ 2 = 10.828 ), 拒绝。 即这两个属性强相关。 3、数据归约 数据归约 数据归约 用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据归约策略 维归约:小波分析、PCA、特征筛选 数量归约:回归、聚类、采样、数据立方体聚集 数据压缩:使用变换 维归约 小波变换
您可能关注的文档
- CAI绪论2要点.ppt
- Call_Center核心管理要点.ppt
- CanadaPolitics要点.ppt
- CAXA制造工程师2008项目1_连杆造型要点.ppt
- CAXA制造工程师2008项目9_模具类零件造型要点.ppt
- CAXA制造工程师单曲线造型要点.ppt
- CAXA制造工程师实体造型要点.ppt
- CAXA制造工程师应用基础知识要点.ppt
- CA第五章—多处理机系统要点.ppt
- CCAR66民用航空法规要点.ppt
- NCV633产品应用培训-电子采购要点.ppt
- chapter2_分布式系统的基本原理1要点.ppt
- Chapter2_入职培训系列之一:职场沟通V1.0要点.ppt
- Chapter2NegotiationTeams要点.ppt
- chapter3(软件与设计CASE工具)要点.ppt
- nelsonmandelalanguagepoints要点.ppt
- NelsonMandela要点.ppt
- Chapter3GovernmentandtheCommonwealth要点.ppt
- NelsonMendelaunit5单词表语言点要点.ppt
- Chapter3HistoryoftheUnitedKingdom要点.ppt
文档评论(0)