- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 如何处理空缺值 忽略元组:假定挖掘任务设计为分类或描述时,缺少类标号的元组通常被忽略。元组中属性缺少值比较多时,挖掘算法的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局常量填充空缺值:比如使用unknown或-∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用Bayesian公式或判定树等基于推断的方法确定。 * 2)噪声数据 噪声:一个测量变量中的随机错误或偏差。 引起不正确属性值的原因: 数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 * 处理噪声数据方法 1、分箱(binning) 先排序数据,并将他们分到等深(宽)的箱中 然后对每箱使用平均值平滑、中值平滑和边界平滑等方法 * 数据平滑的分箱方法 price的排序后数据:4,8,15,21,21,24,25,28,34 划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱边界平滑 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34 用箱平均值平滑 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 平均值平滑-箱中每个值被平均值替换 中值平滑-箱中每个值被中值(排序后出现次数最多的值)替换 边界平滑-最小最大值视为边界,箱中每个值被靠近的边界值替换 * 如何处理噪声数据(续) 2、聚类 将联系松散的数据当作孤立点,监测并且去除孤立点。聚类集合之外的点即为孤立点。 * 如何处理噪声数据(续) 3、回归 通过让数据适应回归函数来平滑数据(线性回归或多线性回归)。 x y = x + 1 X1 y Y1 Y1’ * 如何处理噪声数据(续) 4、计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断。 * 2.3.4数据转换(Transform) 定义:将数据从源操作型业务系统的格式转换到企业数据仓 库的数据格式。 两种类型的数据转换 记录级-选择、连接、规范化和聚集 字段级-单字段和多字段 单字段转换的基本方法:算法和查找表 注意:连接的复杂性。 1)不是关系情形 2)不同域情形 3)源数据有错误情形 * 2.3.4数据转换(Transform) 1)数据集成 数据集成:将多个数据源中的数据整合到一个一致的数据存储(如数据仓库)中。 ○ 模式集成-实体识别问题 匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no? ○冗余问题 同一属性在不同的数据库中会有不同的字段名;一个属性可以由另外的属性导出,即两个属性是相关的。 如:工资、基本工资、加班工资 * Σ[(A-A平)(B-B平)] RA,B = (n-1) σA σB 如果RA ,B 〉0,则A和B是正相关的;该值越大,则A涵盖B的可能性越大。 如果A,B相关性大,分析时就可以删除其中一个。 相关分析:讨论两个属性的相关性。 A平= ΣA/n σA= SQRT[Σ(A- A平)2/(n-1)] 其中A平、B平分别是A、B的平均值;σA 、σB分别是A、B的标准差。 * ○ 检测并解决数据值的冲突 不同的数据表示,不同的度量等等。 例如: 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的(如价格的单位:元、千元)。 1)数据集成(续) * 2)数据变换 平滑:去除数据中的噪声。如分箱、聚类、回归。 聚集:对数据进行聚集和汇总,数据立方体的构建。 数据概化:沿概念分层向上汇总。 规范化:将数据按比例缩放,使之落入一个小的特定区间。 最小-最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中。 * 数据变换——规范化 maxA,minA :属性A的最大与最小值 new_ maxA,new_minA:属性A变换后区间的最大与最小值 ※ 最小-最大规范化:对原始数据进行线性变换,使得数据落在new_ maxA,new_minA区间内。 例:(一般映射到[0,1]区间)工资在700~12000之间,则工资7830规范化后为: V’=(7830-700)/(12000-700)*(1-0)+0=0.7430 * 数据变换——规范化 ※ z-score规范化:基于属性A的平均值和标准差规范化。 ※ 小数定标规范化:通过移动属性A的小数点位置进行规范化。 其中j是使得max
您可能关注的文档
- 第2章半导体电力开关器件.ppt
- 第2章印刷概论.ppt
- 第2章发电、输电、变电的电气部分.ppt
- 第2章合并财务报表(3节).ppt
- 第2章利用Word高效创建电子文档.ppt
- 第2章商业银行的资本管理.ppt
- 第2章商业银行评价.ppt
- 第2章商业银行银行资本管理.ppt
- 第2章国民收入核算.ppt
- 第2章国际收支和国际收支平衡表.ppt
- 广西百色市2023-2024学年高三第四次模拟考试英语试卷含解析.doc
- 云南峨山彝族自治县第一中学2024-2025学年高三第三轮考试语文试题含解析.doc
- 廊坊市重点中学2024届高考全国统考预测密卷语文试卷含解析.doc
- 辽宁省铁岭市第一高级中学2024年高三下学期第五次调研考试生物试题含解析.doc
- 梅州市重点中学2024年高考英语必刷试卷含解析.doc
- 西安理工大学高科学院《混凝土无损检测与质量控制》2023-2024学年第一学期期末试卷.doc
- 2025届西北工业大学附属中学高三下学期期末考试生物试题(理,A卷)含解析.doc
- 河北省永年二中2024届高考临考冲刺历史试卷含解析.doc
- 医务人员职业道德准则2025 年版测试题及答案.docx
- 医务人员职业道德准则2025年版政策解读及全文学习.pptx
我们是专业写作机构,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告,实施方案,商业计划书,社会稳定风险评估报告,社会稳定风险分析报告,成果鉴定,项目建议书,申请报告,技术报告,初步设计评估报告,可行性研究评估报告,资金申请报告,实施方案评估报告
文档评论(0)