- 5
- 0
- 约5.21千字
- 约 8页
- 2017-07-05 发布于天津
- 举报
以“上大学分析”为例体验什么是数据挖掘.pdf
以“上大学分析”为例体验什么是数据挖掘
谈到BI ,就会谈到数据挖掘(Dat a mining)。数据挖掘是指用某些方法和工 ,对数据进行分析 ,发
现隐藏规律并利的一种方法。下面我们将通过 体的例子来学习什么是数据挖掘。
案例“上大学分析”-体验什么是数据挖掘
某社会机构 ,收集了大量的学生考大学的数据。该机构希望找出一些规律 ,以推动更多的学生考
大学。该机构委托你来做这个分析工作 ,给出 体的可以推动更多学生考大学的建议。
收集到的数据如下 :
你可能会考虑用SQ L语句进行查询分析。但问题是 :
1.用什么语句查呢 ?要组合什么条件呢 ?
2.你想查到怎样的结果呢 ?这个结果对决策有帮助吗 ?
那数据挖掘一下吧 !但如何挖掘呢 ?
不了解数据挖掘的人 ,往往会认为只需要让计算机去挖掘一下 ,计算机就能帮我们找出想要的东西
。计算机哪会这样神奇 ,在数据挖掘之前 ,我们必须要自己好好分析一下。
1.明确挖掘的目标
我们看看原始需求是这样的 :该机构希望找出一些规律 ,以推动更多的学生考大学。
你可能会说 :该目标也太大了一点吧 !现在该机构委托你做这个事情 ,人家不是专业人士 ,你还指
望人家什么都帮你做好吗 ?那要你干嘛 !
我们仔细分析一下 ,原始数据有姓名、性别、IQ 、家庭年收入、兄弟姐妹数量、是否想上大学字段
,要推动更多学生考大学 ,我们无非就是要分析出 :
1)有上大学计划的人主要原因是什么呢 ?
2)无上大学计划的人主要原因是什么呢 ?
分析出这些原因 ,就可以提出针对性的建议了。
2.明确因果关系
看下面这个图 :
对原始数据表进行分析 ,我们可以推论出 :家庭收入、性别、兄弟姐妹数量、IQ这些因素 ,很可能
会影响有否上大学计划。至于姓名会不会影响 ,我们可以用常识判断应该不会 ,故可以排除。
这样我们就可以确定输入列有 :家庭收入、性别、兄弟姐妹数量、IQ ,可预测列为 :有上大学计
划否。
数据挖掘的目标就是找出输入列与可预测列的关系 ,只要找到这个规律 ,就可以提出针对性的建议
,也可以利用这个规律做预测
以上工作准备就绪后 ,我们就需要选择合适的分析方法来数据挖掘了。我们选择“决策树”的方法 ,
下面是决策树的部分分析结果 :
说明 :
1.最上面的一个节点表示有55%的人有计划上大学 ,4 5%的人没有计划。
2.第二层节点 ,以IQ为条件进行划分 ,IQ大于100的人中 ,有上大学计划的人有79%之多 ,而IQ小
于等于100的人 ,有上大学计划的人只有35% ,这说明IQ是很重要的影响因素。
3.第三层节点是年收入 ,第四层是兄弟姐妹数量。
4 .决策树算法会分析原始数据 ,将影响程度最大的因素排在上面 ,次之的因素排在后面。
由上面的分析 ,我们可以得到这样的一些信息 :
1.越是IQ高的越有上大学的计划。
2.家庭收入越高 ,越有上大学计划。
3.兄弟姐妹越多 ,上大学计划就越微。
4 .性别没有在这棵树出现 ,说明性别对有否上大学计划没有明显影响。
接下来我们就可以提出针对性的建议 ,以推动更多人考大学 :
1.大学学位有限 ,目前重点应该是鼓励更多的聪明的学生考大学。
2.聪明的学生不计划上大学 ,主要原因是家庭收入低、兄弟姐妹多 ,针对这样的情况 ,政府可考虑
降低大学学费 ,或对低收入、多子女的家庭进行资助。
总结一下数据挖掘的过程 :
1.明确你的目标 ,收集相关数据。 2.根据目标分析这些数据 ,找出输入列、可预测列。 3.选
择合适的数据挖掘方法。 4 .分析数据挖掘结果 ,给出建议。 第2、3步可能需要不断地尝试和
调试 ,才能找到合适的分析结果。
怎么样 ?这个过程不简单吧 ?以上这个例子已经经过我的简化和提炼 ,其目标就是让大家能容易理
解什么是数据挖掘 ,实际工作中的数据挖掘难度是很高的 ,需要 备这些能力 :
1.能深彻体会业务的要求 ,能将客户笼统的需求转化为实在的工作指导。
2.能分析出输入列、可预测列。
3.熟悉各种数据挖掘方法 ,会选择合适的方法进行分析。
4 .能深入分析数据挖掘的结果 ,综合运用你的各种知识 ,为客户提出针对性的决策建议。
常见的数据挖掘方法
常见的数据挖掘方法有分类、聚类、关联、回归、时间序列分析、离散序列分成、偏差分析、贝
叶斯、神经网络等等。这些内容都涉及到深厚的数学知识 ,下面只是一些肤浅的介绍 ,让大家有个
大概的认识 ,为大家进一步学习打好基础。
数据挖掘算法之分类
例 :某银行每天收到很多信用卡办理的申请 ,为提高效率和准确性 ,想应用
您可能关注的文档
- 一种自动的形式化验证技术一模型检测.pdf
- 一种自适应的移动组播协议.pdf
- 一种远程缓冲区溢出漏洞检测模型及系统实现.pdf
- 一种适用于复杂环境的无线传感定位算法.pdf
- 一种面向服务构件的高可信组装技术的研究.pdf
- 一般线性模型的SPSS应用.ppt
- 三星专题-三星KNOX测试:三星KNOX移动信息安全解决方案体验报告.pdf
- 三种数据降维方法的分析比较.pdf
- 三维并行自适应有限元软件平台 phg.pdf
- 上海交大815考研控制理论基础课件7.pdf
- 广西南宁2025-2026秋季期末八年级【语文】试卷(含答案).pdf
- 广西南宁2025-2026秋季期末高一化学试卷(含答案).pdf
- 广西南宁2025-2026秋季期末九年级数学试卷(含答案).pdf
- 广西南宁2025-2026秋季期末高一英语(含答案,无听力音频).pdf
- 广西南宁2025-2026秋季期末高一地理试卷(含答案).pdf
- 内科护理(中职):心包疾病病人的护理PPT教学课件.ppt
- 胆管结石的中医护理方法.ppt
- 内科护理(中职):心肌疾病病人的护理PPT教学课件.ppt
- 内科护理(中职):心律失常病人的护理PPT教学课件.ppt
- 嵌入式系统实践及工程应用—从基础到人工智能:具备AI算力的嵌入式系统开发PPT教学课件.pptx
原创力文档

文档评论(0)