Python数据挖掘实战-全套PPT课件.pptx

; 四、数据挖掘的主要工具; . 数据爆炸但知识贫乏。 – 人们积累的数据越来越多。但是, 目前这些数据还仅仅应用在数据的录入、 查询、统计等功能,无法发现数据中存 在的关系和规则,无法根据现有的数据 预测未来的发展趋势,导致了“数据爆 炸但知识贫乏”的现象。; 为什么挖掘数据? . 数据以极快的速度收集和存储 (GB/hour) . 传统的技术难以处理这些 —— raw data – 低价值密度的数据 – 许多数据根本未曾分析过 . 数据挖掘可能帮助科学家; 定义:数据、信息和知识 (1)数据(Data):以文本、数字、图形、声音和视频等形式对现实世界中的 某种实体、事件或活动的记录, 是未经加工和修饰的原料。 (2)信息(Information):是为了特定的目的, 对数据进行过滤、融合、标准 化、归类等一系列处理后得到的有价值的数据流。 (3)知识(Knowledge): 是通过对信息进行归纳、演绎、提炼和总结, 得到 的更具价值的观点、规律或者方法论。; 什么是数据挖掘? ? 定义: – 数据挖掘是从大量的、不完全的、有噪声的、模糊的、 随机的数据中提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。; 数据挖掘的历史演变; – 统计学的抽样、估计和假设检验 – 人工智能、机器学习的搜索算法、建 模技术和学习理论 – 数据库系统提供有效的存储、索引和 查询处理支持 – 此外,还包括: . 分布式技术、最优化、进化计算、 信息论、信号处理、可视化和信 息检索 等技术。; 在什么样的数据上进行挖掘? . 在计算机科学中,数据是数字、文字、声音、图像、视频等可以输入 到计算机并被识别的符号。如: – 企业运营数据 – 用户数据 – 视频、游戏数据等 . 从表现形式上: – 数字、文本、声音、图像、视频等 . 从数据组织和存储方式上看,分为: – 结构化数据 – 非结构数据; 在什么样的数据上进行挖掘? ? 通常, 数据挖掘可以在任何类型的数据上进行,包括: 关系数据 库、数据仓库、事务数据库、高级数据库系统、文本、 Web、日 志、图像、视频、语音等。; 数据挖掘的应用 数据挖掘技术的应用非常广泛,在金融、电子商务、 医学、市场营销、生物学、科学研究等方面均有大量应用,例如: 1. 信贷风险管理 2. 反洗钱监测 3. 客户关系管理 4. 蛋白质分子结构预测 5. 股票交易 6. 地震预警 7. 商品推荐; 需求分析; 典型的数据分析的流程: ? 需求分析: 数据分析中的需求分析也是数据分析环节的第一步和最重 要的步骤之一,决定了后续的分析的方向、方法。 ? 数据获取: 数据是数据分析工作的基础,是指根据需求分析的结果提 取,收集数据。 ? 数据预处理:数据预处理是指对数据进行数据合并,数据清洗,数据 变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直 接用于分析建模这一过程的总称。 ? 数据挖掘建模:通过统计分析、回归分析、聚类、分类、关联规则、 智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程。 ? 模型评价与优化: 模型评价是指对已经建立的一个或多个模型,根据 其模型的类别,使用不同的指标评价其性能优劣的过程。 ? 部署: 部署是指将通过了正式应用数据分析结果与结论应用至实际生 产系统的过程。; 预测vs.描述 – 预测(Prediction) . 根据其他属性的值,预测特定属性的值 – 描述(Description) . 导出概括数据中潜在联系的模式 任务类型: . 分类(Classification) [Predictive] . 回归(Regression) [Predictive] . 关联规则发现(Association Rule Discovery) [Descriptive] . 聚类(Clustering) [Descriptive] . 异常/偏差检测(Anomaly/Deviation Detection) [Predictive] . 时间序列分析(time series analysis); 数据挖掘是一个包含多个步骤的复杂数据处理流程,在实施过程中必 须依赖特定的数据挖掘工具或软件,才能取得较好的结果。 . 商业化的数据挖掘软件:SAS的Enterprise Miner, IBM的SPSS Modeler, Oracle的Data Miner等 . 开源数据挖掘软件: Weka ,RapidMiner,KNIME等 . 基于脚本语言的工具: 如Pyth

文档评论(0)

1亿VIP精品文档

相关文档