- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⼤数据分析与挖掘
第⼀章 绪论
1.1 ⼤数据分析与挖掘简介
1. ⼤数据的四个显著特点:容量(Volume)、多样性(Variety)、速度(Velocity)、价值(Value)
2. 数据挖掘提取出的知识⼀般可表⽰为:概念、规则、规律、模式等形式
1.3 ⼤数据分析与挖掘的主要技术
任务⽬标的确定 ⽬标数据集的提取 数据预处理 建⽴适当的数据分析与挖掘模
1. ⼤数据分析与挖掘的主要步骤:(1) (2) (3) (4)
型 知识的应⽤
(5)
对数据的统计分析与特征描述 关联规则挖掘和相关性分析 分类和回归 聚类分
2. 数据挖掘主要包括如下功能:(1) (2) (3) (4)
析 异常检测或者离群点分析
(5)
第⼆章 数据特征分析与预处理
2.1 数据类型
1. 数据集类型:结构化数据、半结构化数据
2. 数据属性的类型:标称属性、序数属性、数值属性
2.2 数据描述性特征
2.2.1 描述数据集中趋势的度量
1. 算术平均数
2. 中位数
3. 众数
4. k百分位数
5. 四分位数
2.2.2 描述数据离中趋势的度量
1. 极差
2. 四分位数极差
2.2.3 数据分布形态的度量
峰度⽤于衡量数据的平坦度
k≈0,称为常峰态
k0,称为低峰态
k0,称为尖峰态
2.2.4 数据分布特征的可视化
箱型图
2.3 数据的相关分析
2.3.1 相关分析
散点图
相关系数 0r≤1,表明X和Y之间存在正线性相关关系;-1≤r0,表明X和Y之间存在负相关关系;r=0,表明X和Y之间吧不存在线性相关关系,但并不排
除⼆者之间存在⾮线性相关性
2.4 数据预处理
零均值化,零均值化的过程就是在空间中沿着各个属性的坐标,对数据进⾏平移使均值为零的过程
z分数变换适⽤于数据的各个属性值差异较⼤,或者数据挖掘算法假设数据服从正态分布的情况下
z分数的缺点在于假设原始数据并没有呈⾼斯分布,标准化的数据分布效果并不好
独热编码
缺点:当数据类别的数量很多时,特征空间会变得⾮常⼤
2.4.4 数据清洗
指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,
完全随机缺失(missing completely at random,MCAR):
不影响样本的⽆偏性,如家庭地址缺失;举例:⼀位⽼师抱着批改完的卷⼦⾛在路上,不⼩⼼摔倒丢失了⼏张卷⼦,因此有⼏位同学没
有成绩。这种成绩缺失不是因为成绩这个变量本⾝⾼或低⽽丢失的,⽽是随机丢失的;也与性别等⽆关,不会出现男⽣卷⼦丢失概率
⾼,⼥⽣卷⼦丢失概率低的问题。
随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失
情况与企业的⼤⼩有关;举例:我们的⽬标是要统计⼀个班学⽣的基本信息,包括名字、性别、⾝⾼、体重等。⽽此时如果某⼀学⽣的
体重这⼀变量缺失,这⼀事件最可能发⽣在哪些⼈⾝上呢?⼀般来说,是⼥⽣。因此体重缺失与已知变量性别相关,这就叫做条件随机
缺失。
指的是数据的缺失与不完全变量 ⾃⾝的取值有关,如⾼收⼊⼈群不原意提供家庭收
⾮随机缺失(missing not at random,MNAR):
⼊ ; 举例:通常在收集数据时收⼊⼀栏很容易缺失,发⽣这种情况的原因可能是填写⼈收⼊过⾼或过低。因此收⼊缺失与填写⼈本⾝
收⼊有关,这就叫做⾮随机缺失。
均值填充法 :如果缺失值是数值型,就⽤该属性在其他所有对象的取值的平均值来填充该缺失的变量值 ;如果缺失值是⾮数值型,则使
⽤众数补齐该缺失的变量值。
等宽分箱法 :
第三章关联规则挖掘
3.1 基本概念
在⼀个事务集合T中,项集X在T中出现的次数就是项集X⽀持度计数
您可能关注的文档
- 2016年云南省初中信息技术考试试题及答案.pdf
- java试题理解练习(第2套).pdf
- (必考题)初中八年级物理上册第一章《机械运动》经典练习题(提高培优)(1).pdf
- 2021-2022学年山西省朔州市平鲁区李林中学高一(下)第一次月考物理试卷(含答案解析).pdf
- 人教版初中八年级物理上册第一章《机械运动》经典练习题(含答案解析).pdf
- 国家开放大学年工商管理案例设计与分析大赛14.pdf
- 2021年人教新版数学四年级下册学业考期末专题:小数与单位换算(解析版).pdf
- 人教版毕业班六年级数学命题(内含答案).pdf
- 2023年会计专业学生自我鉴定(精选15篇).pdf
- 小学数学教育教学中思维能力的培养分析.pdf
- 上海开放大学-财经法规与会计职业道德-积分作业答案.pdf
- 2022国开形考任务 《教育学》(5).pdf
- (好题)初中物理八年级上册第一章《机械运动》测试题(包含答案解析)(3).pdf
- 前厅员工考试试题.pdf
- 2023届山西省大学附属中学高三下学期第六次检测英语试卷含解析.pdf
- 全国计算机软件等级考试.pdf
- 山西省朔州市十一月教师资格考试中学教育学第二阶段综合测试卷含答案及解析.pdf
- 《易错题》人教版初中物理八年级上册第一章【机械运动】经典练习卷(培优专题)(1).pdf
- 山西省朔州市怀仁市重点达标名校2023届中考押题英语预测卷含答案.pdf
- 国开电大《中外政治思想史》形考任务1答案.pdf
最近下载
- 人教版-小升初考试数学专题讲练:第21讲 植树问题.doc VIP
- 影棚及摄像器材租赁报价单.pdf
- 应用博弈论解决海盗分金问题.pptx VIP
- 2025年高考天津卷作文“车轮辐辏”审题立意及范文 .pdf
- 挖掘红色资源开发校本课程图文.pdf VIP
- 围手术期预防应用抗菌药物专项点评及干预效果分析.doc VIP
- 建筑施工危险源辨识及风险评价清单500项.pdf VIP
- 四川成都高新科技创新投资发展集团有限公司招聘笔试题库2025.pdf
- IATF16949--过程审核检查表-(含审核记录)-.pdf VIP
- 2026西南证券股份有限公司校园招聘300人考试备考试题及答案解析.docx VIP
原创力文档


文档评论(0)