- 54
- 0
- 约8.73千字
- 约 5页
- 2017-05-09 发布于河南
- 举报
数据挖掘方法论(SEMMA)
SAS数据挖掘方法论?─?SEMMA
(2009-07-20 21:15:48)
当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。
通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!
从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性。你还应当从实验设计的要求来考察所取样数
您可能关注的文档
- 【余世维精典讲义】成功经理人讲座.ppt
- 情感教育讲座.ppt
- motorola MC9190设置手册.ppt
- 煤矿用80开关(QBZ-80、120、200)说明书.ppt
- 中考专题复习方程与不等式的应用.ppt
- AIKOH推拉力计使用说明.ppt
- 如何开好一个专题会议.ppt
- LED全彩屏操作说明书.ppt
- 卡西欧CASIOfx5800P使用说明书.ppt
- 2014.3.高三二轮复习微专题——气温.ppt
- 2026年智慧健康管理系统创新报告.docx
- 河北衡水市武强中学2025-2026学年高二下学期4月期中物理试题(含解析).docx
- 2026年人工智能行业智能老年防走失定位器创新报告.docx
- 2026年低空经济飞行器量子技术应用创新报告.docx
- 2026年农业智能农业智能育种创新报告.docx
- 河北省保定市莲池区保定市第一中学2025-2026学年高二下学期期中考试生物试题(含解析).docx
- 2026年智慧城市电子站牌充电创新报告.docx
- 河北省邯郸市平恩中学等校2025-2026学年八年级期中考试英语试题(含解析).docx
- 2026年供应链创新技术应用报告.docx
- 2026年体育智能赛事管理系统支付系统创新报告.docx
最近下载
- 2023年高考地理试卷(辽宁)(解析卷).doc VIP
- 《世界第一经济大国——美国》ppt地理教学课件.ppt VIP
- T /GDNAS 087—2026 晚期肿瘤患者肠梗阻导管的护理.pdf VIP
- 2025年小学科学《实验》专项训练卷.docx VIP
- 天津中考化学二轮复习知识点汇总.doc VIP
- 辽宁沈阳市辽中区第二初级中学2025_2026学年八年级下学期学科评价性作业道德与法治试卷(文字版,含答案).docx
- 《晚期肿瘤患者肠梗阻导管的护理》.pdf VIP
- 在线网课学习课堂《学术英语(华理 )》单元测试考核答案.pdf VIP
- 中央空调水系统节能改造方案.docx VIP
- 2024年高考地理试卷(辽宁)(空白卷).docx VIP
原创力文档

文档评论(0)