- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据掘技术 第四章 数据预处理
第4章 数据预处理
4.1数据预处理概述
4.1.1原始数据中存在的问题
1. 不一致
2. 重复
3. 不完整
4. 含噪声
5. 维度高
6. 数据不平衡
4.1.2数据预处理的方法和功能
1. 数据清洗(data cleaning)
2. 数据集成(data integration)
3. 数据变换(data transformation)
4. 数据归约(data reduction)
4.2数据清洗
4.2.1属性选择与处理
1. 尽可能赋予属性名和属性值明确的含义
2. 统一多数据源的属性值编码
3. 处理唯一属性
4. 去除重复属性
5. 去除可忽略字段
6. 合理选择关联字段
4.2.2空缺值处理
1. 忽略该记录
2. 去掉属性
3. 写空缺值
4. 使用默认值
5. 使用属性平均值
6. 使用同类样本平均值
7. 预测最可能的值
4.2.3噪声数据处理
1. 分箱(binning)
2. 聚类(clustering)
图4-1用聚类方法去掉噪声
3. 回归(regression)
4.2.4不平衡数据的处理
4.3数据集成和变换
4.3.1数据集成
1. 模式匹配
2. 数据冗余
3. 数据值冲突
4.3.2数据变换
1. 平滑(smoothing)
2. 聚集(clustering)
3. 数据概化(generalization)
4. 规范化(normalization)
5. 属性构造
4.4数据归约
4.4.1数据归约的方法
4.4.2数据立方体聚集
图4-2销售数据立方体
图4-3聚集后的销售数据立方体
4.4.3维归约
1. 逐步向前选择
2. 逐步向后删除
3. 向前选择和向后删除结合
4. 判定树(dicision tree)归纳
图4-4用判定数进行属性归约
5. 基于统计分析的归约
4.4.4数据压缩
4.4.5数值归约
1. 直方图(histogram)
图4-5购买数据的单桶直方图
图4-6购买数据的等宽直方图(箱宽5)
2. 聚类
3. 抽样(sampling)
图4-7示例数据集
图4-8用户数据按年龄分层抽样
4. 线性回归
5. 非线性回归
4.4.6离散化与概念分层生成
图4-9分箱产生的概念分层和离散化
1. 数值数据的离散化与概念分层生成
图4-103-4-5规则产生的概念分层
图4-11数据集D的分布曲线
图4-12在置信区间[5%,95%]上的第一层划分
图4-13对缺失区间补充的划分
图4-14对图4-13进一步分层
2. 分类数据的概念分层生成
图4-15对属性组: year,month,day的概念分层
习题4
1. 列举实际业务操作数据中存在的问题以及这些问题产生的原因。
2. 数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?
3. 说明属性选取的原则。
4. 说明填补空缺值的方法和这些方法的优缺点。
5. 下面是一个超市某种商品连续24个月的销售数据(百元):
21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17
使用统一权重、统一区间、和自定义区间方法对数据分箱,做出各种分箱方法得到的直方图。
6. 对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。
7. 如果挖掘算法需要把第5题中的商品销售数据规范化到区间[0,1]上,采用最小-最大规范化方法,请写出规范化后的结果。
8. 试采用一种分箱方法,对以下某种商品连续30周的销售利润数据进行归约(千元):
3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,3
9. 解释本章中提到的几种数据抽样方法。
10. 用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。
11. 对连续数值型数据集D,取值范围为0~70,试用3-4-5规则对其进行离散化。
1
数据结构(C++版)
数据仓库与数据挖掘技术
lujianhua (South area ahead Office Director and to war victory)]. County Government operates 3 Civil Affai
您可能关注的文档
- 数字电路逻辑设课后答案.docx
- 数字近景摄影测技术在文物保护以及工业摄影测量中的应用.doc
- 数字程控交换系控制系统与交换网络 - 现代交换技术实验报告.doc
- 数字网桥无线监方案-- 建筑工地.doc
- 数字逻辑随堂练答案.doc
- 数字飙榜之福布2008世界十大富豪.docx
- 数学七年级下册程纲要.doc
- 数学与应用数学业2004-2009年核心期刊论文.doc
- 数学专业本科毕论文题目.doc
- 数学专业毕业论参考选题.doc
- 数据中心供配电设备行业跟踪:数据中心及AI景气上行,电力设备需求持续增长.pdf
- 芯碁微装:PCB与先进封装共振,直写光刻龙头乘势起.pdf
- 2026年A股市场策略展望:新老经济的平衡.pdf
- 2026年海外科技策略报告:新科技进化论:从硅基、量子到星辰的三重奏变革.pdf
- 公用事业行业2026年年度策略:十五五逸兴遄飞,新常态俊采星驰.pdf
- 2025人工智能产业30条判断:轰然成势 万象归.pdf
- 2024年四川省秋季文旅推介活动(安岳)策划设计方案.pptx
- 《面向AI时代的数据开放生态》.pdf
- 2025年汽车显示技术与行业趋势分析报告 2025 Automotive Display Technology and Industry Trends Analysis Report.pdf
- 人工智能 数据集质量评估要求(征求意见稿0.pdf
最近下载
- 诗词大会训练题库(九宫格) (1).ppt VIP
- 防撞护栏安全交底.docx VIP
- DBJ51T 137-2020 四川省塔式起重机装配式基础技术标准 .pdf VIP
- 2025年四川省国家工作人员法治素养测评三考试题及参考答案.docx VIP
- 中铁三局渝万高铁站前3标预制简支箱梁四角高差汇报-1.pptx VIP
- 2024年肠内营养支持的护理实践.pptx
- 2025年一级造价工程师《建设工程技术与计量(土建)》真题及答案解析.docx VIP
- 企业经营中的供应链管理.pptx
- 数字浪潮下:大学生微信使用行为与媒体素养的深度关联研究.docx
- 基于痕迹检验的交通事故鉴定案例分析.pptx VIP
原创力文档


文档评论(0)