- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据挖掘基础
8.1数据挖掘概述
数据挖掘产生背景
数据分析的主要困难数据的多样性数据价值密度相对较低数据的准确度和可信赖度有待考证数据的生成和更新速度快
数据挖掘的定义
数据挖掘概念数据挖掘:数据挖掘是指从大量的、多样化的、不完全的、有噪声的数据中提取隐含的、事先未知的、有潜在价值信息或知识的过程。
数据挖掘的特点①数据挖掘要处理的数据经常是庞大的数据集。②数据挖掘面对的原始数据是多样化的。③数据挖掘中的数据经常是不完全的或有噪声的。④数据挖掘输出的结果通常是模型或规则。⑤数据挖掘的目标是挖掘未知的但是潜在有价值的信息。
数据挖掘:从大量杂乱无章的数据中提取或“挖掘”知识。最著名的故事
-17+14+=安佛尼·哈德卫伯兰·绍+=达利尔·阿姆斯壮安佛尼·哈德卫美国兰德公司分析报告最值钱的分析报告
统计学可视化高性能计算人工智能数据库技术机器学习DM
数据挖掘过程
问题定义数据探索数据挖掘模型评价与部署数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据理解业务问题理解客户需求定义商业目标定义挖掘目标是指描述用户使用产品必须要完成的任务,是从用户角度出发的需求。即业务需求,它定义了数据挖掘的主题(如成因分析),是从业务角度出发的需求。挖掘的最终结果具有不可预见性,但要解决的问题应是明确的。这里是从商业角度深度理解需求。挖掘目标通常是描述过去,预测未来。
数据采集数据探索数据挖掘模型评价与部署问题定义数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据随机抽样分层抽样等距抽样顺序抽样分类抽样……相关性可靠性有效性
数据探索数据数据采集数据挖掘模型评价与部署问题定义数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据特征分析——————分布分析、统计分析、贡献度分析、对比分析、周期性分析、相关分析。质量分析——————缺失值分析、异常值分析、一致性分析。
数据探索数据数据采集数据挖掘模型评价与部署问题定义知识数据准备数据挖掘解释评估模式预处理后的数据数据清洗——————是指发现并纠正数据文件中可识别的错误。如:缺失值处理、异常值处理、一致性处理。数据变换——————是指进行规范化处理。如,成绩开方乘10。数据集成——————把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中在一起,为企业提供全面的数据共享。数据规约——————是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据预处理目标数据
数据挖掘模型评价与部署模式预处理后的数据数据探索数据数据采集问题定义数据预处理知识数据准备数据挖掘解释评估目标数据分类预测关联规则聚类分析
数据挖掘模型评价与部署模式预处理后的数据数据探索数据数据采集问题定义数据预处理知识数据准备数据挖掘解释评估目标数据
数据挖掘数据挖掘概念三个经典案例相关领域挖掘过程定义目标数据采集数据探索数据预处理数据挖掘模型评价与部署
8.2数据采集
数据探索数据挖掘模型评价与部署问题定义数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据
数据来源
数据类型以数量形式存在,且可以测量,如温度、销售额定性数据定量数据表示事物性质、规定事物类别,如男女、满意程度分级等。
客户信息选课信息车辆信息……关系数据库数据仓库事务数据库购物篮信息销售人员-导购成交信息围绕主题组织数据仓库存储使用数据立方体的多维数据结构建模010203
文件新闻网页聊天记录……文本数据库其他类型多媒体数据库声文图用于图片检索、视频点播、多媒体综合挖掘等空间数据时间数据序列数据网状数据040506
数据采集方法感器Web爬虫日志文件统计数据收集直接观察法访问法网络调查法实验法文献检索法
空间时间人物事完整性实体完整性属性完整性记录完整性一致性协议一致性结构一致性单位一致性0|11|0name|age|scorename|score|age¥14,777.881.4万增加维度法简单去重法节约性张三Food1李四Food2张三Food1默认值约定特殊字符处理长度范围规范值域范围规范异常处理默认为0,还是上报空值?数据完整性隐患数据一致性隐患
数据来源数据来源数据类型挖掘采集数据采集方法数据原则
8.3数据探索
数据探索数据挖掘模型评价与部署问题定义数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据
分布分析
理工院校男女比例是多少?
定量数据分析的第一步就是对数据进行分类,即分组。如:性别。通过分组,可以将数据归纳为一张表,这种表也称为频数表。频数表中各组所分配到的总体单位数称为频数或次数;将各组单位数与总体单位数相比,
您可能关注的文档
- 计算思维导论(第2版)课件:数据库技术基础.pptx
- 【研究】基于绿证_碳交易机制的含风电电力系统动态环境经济调度.docx
- 电规总院:进一步优化绿电消费证明机制的几点思考和建议1.docx
- 【深度分析】可再生能源新政何以推动绿证市场发展-国金证券.docx
- 碳中和政策系列报告二:欧盟循环经济行动加速推进,我国循环经济及绿电企业全面受益-申万宏源.docx
- 新能源运营商,绿电加持,重塑成长.docx
- 培训课件 -什么是战略?有没有制定战略的战略.pdf
- IEEE 3224-2023 基于区块链的绿电标识应用标准 (中).docx
- 【研报】可再生能源新政何以推动绿证市场发展-国金证券.docx
- 【研报】“双碳”政策持续发力,绿电主题现投资机会---兴业证券.docx
- 绿电2022年系列报告之一:业绩利空释放,改革推动业绩反转和确定成长.docx
- 化学化工行业数字化转型ERP项目企业信息化规划实施方案.pdf
- 【研报】三部门绿电交易政策解读:溢价等额冲抵补贴,绿电交易规模有望提升---国海证券.docx
- 中国债券市场的未来.pdf
- 绿电制绿氢:实现“双碳”目标的有力武器-华创证券.docx
- 【深度分析】浅析绿证、配额制和碳交易市场对电力行业影响-长城证券.docx
- 绿电:景气度+集中度+盈利性均提升,资源获取和运营管理是核心壁垒.docx
- 节电产业与绿电应用年度报告(2022年版)摘要版--节能协会.docx
- 2024年中国人工智能系列白皮书-智能系统工程.pdf
- 如何进行行业研究 ——以幼教产业为例.pdf
文档评论(0)