;
四、数据挖掘的主要工具;
. 数据爆炸但知识贫乏。
– 人们积累的数据越来越多。但是,
目前这些数据还仅仅应用在数据的录入、 查询、统计等功能,无法发现数据中存 在的关系和规则,无法根据现有的数据 预测未来的发展趋势,导致了“数据爆 炸但知识贫乏”的现象。;
为什么挖掘数据?
. 数据以极快的速度收集和存储 (GB/hour) . 传统的技术难以处理这些 —— raw data
– 低价值密度的数据
– 许多数据根本未曾分析过
. 数据挖掘可能帮助科学家;
定义:数据、信息和知识
(1)数据(Data):以文本、数字、图形、声音和视频等形式对现实世界中的 某种实体、事件或活动的记录, 是未经加工和修饰的原料。
(2)信息(Information):是为了特定的目的, 对数据进行过滤、融合、标准 化、归类等一系列处理后得到的有价值的数据流。
(3)知识(Knowledge): 是通过对信息进行归纳、演绎、提炼和总结, 得到 的更具价值的观点、规律或者方法论。;
什么是数据挖掘?
? 定义:
– 数据挖掘是从大量的、不完全的、有噪声的、模糊的、 随机的数据中提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。;
数据挖掘的历史演变;
– 统计学的抽样、估计和假设检验
– 人工智能、机器学习的搜索算法、建 模技术和学习理论
– 数据库系统提供有效的存储、索引和 查询处理支持
– 此外,还包括:
. 分布式技术、最优化、进化计算、 信息论、信号处理、可视化和信 息检索 等技术。;
在什么样的数据上进行挖掘?
. 在计算机科学中,数据是数字、文字、声音、图像、视频等可以输入 到计算机并被识别的符号。如:
– 企业运营数据
– 用户数据
– 视频、游戏数据等
. 从表现形式上:
– 数字、文本、声音、图像、视频等
. 从数据组织和存储方式上看,分为:
– 结构化数据
– 非结构数据;
在什么样的数据上进行挖掘?
? 通常, 数据挖掘可以在任何类型的数据上进行,包括: 关系数据 库、数据仓库、事务数据库、高级数据库系统、文本、 Web、日 志、图像、视频、语音等。;
数据挖掘的应用
数据挖掘技术的应用非常广泛,在金融、电子商务、
医学、市场营销、生物学、科学研究等方面均有大量应用,例如:
1. 信贷风险管理
2. 反洗钱监测
3. 客户关系管理
4. 蛋白质分子结构预测
5. 股票交易
6. 地震预警
7. 商品推荐;
需求分析;
典型的数据分析的流程:
? 需求分析: 数据分析中的需求分析也是数据分析环节的第一步和最重 要的步骤之一,决定了后续的分析的方向、方法。
? 数据获取: 数据是数据分析工作的基础,是指根据需求分析的结果提 取,收集数据。
? 数据预处理:数据预处理是指对数据进行数据合并,数据清洗,数据 变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直 接用于分析建模这一过程的总称。
? 数据挖掘建模:通过统计分析、回归分析、聚类、分类、关联规则、
智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程。
? 模型评价与优化: 模型评价是指对已经建立的一个或多个模型,根据 其模型的类别,使用不同的指标评价其性能优劣的过程。
? 部署: 部署是指将通过了正式应用数据分析结果与结论应用至实际生 产系统的过程。;
预测vs.描述
– 预测(Prediction)
. 根据其他属性的值,预测特定属性的值
– 描述(Description)
. 导出概括数据中潜在联系的模式
任务类型:
. 分类(Classification) [Predictive]
. 回归(Regression) [Predictive]
. 关联规则发现(Association Rule Discovery) [Descriptive] . 聚类(Clustering) [Descriptive]
. 异常/偏差检测(Anomaly/Deviation Detection) [Predictive] . 时间序列分析(time series analysis);
数据挖掘是一个包含多个步骤的复杂数据处理流程,在实施过程中必
须依赖特定的数据挖掘工具或软件,才能取得较好的结果。
. 商业化的数据挖掘软件:SAS的Enterprise Miner, IBM的SPSS Modeler, Oracle的Data Miner等
. 开源数据挖掘软件: Weka ,RapidMiner,KNIME等
. 基于脚本语言的工具: 如Pyth
原创力文档

文档评论(0)