网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘概念与技术据挖掘概念与技术.doc

数据挖掘概念与技术据挖掘概念与技术.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术据挖掘概念与技术

数据挖掘概念与技术 一. 什么是数据挖掘,数据挖掘的知识体系及应用范围 1. 定义: 又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。 知识发现的过程: ? 1). 数据清理: 除噪声和删除不一致数据 ? 2). 数据集成: 多种数据源的组合 ? 3). 数据选择: 取和分析与任务相关的数据 ? 4). 数据变换: 数据变换和统一成适合挖掘的形式 ? 5). 数据挖掘: 使用智能方法提取数据格式 ? 6). 模式评估: 识别代表知识的有趣模式 ? 7). 知识表示: 使用可视化和知识表示技术,向用户提供挖掘的知识 2. 为什么要进行数据挖掘 ???? 未来将是大数据时代,IDC(国际数据公司)研究报告指出2012年全球信息资料量为2.8ZB(2的40次方GB),而在2020年预计会达到40ZB,平均每人拥有5247GB的数据。庞大的数据量背后隐藏着巨大的潜在价值,人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值,因此对数据挖掘的研究可以帮助我们将数据转化成知识。 3. 数据挖掘的知识体系 ??? 数据挖掘作为一个应用驱动的领域,吸纳了许多应用领域的技术,包括: 统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 数据挖掘的任务分类: 描述性任务: 刻画目标数据的一般性质 预测性任务: 归纳及做出预测 数据挖掘功能: 1). 数据特征化与数据区分 2). 频繁模式 3). 关联和相关性挖掘 4). 分类和回归 5). 聚类分析 6). 离群点分析 4. 数据挖掘应用领域 1. 金融数据分析 2. 零售与电信业: 例如分析零售数据有利于做出正确的决策;产品推荐;顾客保有及促销策略 3. 科学与工程数据挖掘 4. 网络数据挖掘: 社交网络用户行为分析,多媒体、文本和web数据分析 5. 信息检索: 搜索引擎、云计算、数据仓库 ? 二. 认识数据 1. 属性总结: 标称属性:一些符号和事物的名称,如头发颜色和学历是描述人的属性。 二元属性:只有0、1两种状态 序数属性: 可能的值具有有意义的序,如教师职称 数值属性: 定量的,用实数值表示 2. 度量数据的相似性和相异性(即数据的邻近性) 非对称二元属性: Jaccard属性 数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离 相似性评估:余弦相似性(用于比较文档)、Tanimoto系数 3. 数据预处理 1). 数据清理:填补缺失值、光滑噪声、识别离群点、纠正数据不一致性,通常是一个两步迭代过程,包括偏差检测盒数据变换 ? 处理缺失值:有忽略元组、人工填写、全局常量填充、????? ?????????????均值或中位数填充、同类均值或中位数填充、最可能值填充六种方法。 ? 噪声数据处理:分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑方法) ??????????????? 回归、离群点分析 2). 数据集成: 将来自多个数据源的数据整合成一致的数据存储 实体识别问题:模式集成和对象匹配。如在一个系统中discount用于订单,而在另一个系统中用于商品,集成不正确导致商品不正确打折 冗余和相关分析: 冗余指一个属性能由另一个或另一组属性导出,则这个属性是冗余的,可用相关分析检测到。 标称数据使用卡方检验,数值属性用相关系数和协方差 3). 数据规约:简化数据集的表示,包括维规约和数值规约 维规约:数据压缩技术(如小波变换和主成分分析), 属性子集选择,属性构造 数值规约: 参数模型(如回归),非参数模型(聚类、抽样、直方图) 4). 数据变换:将数据变换成适于挖掘的形式 变换策略包括: 光滑,属性构造,聚集,规范化,离散化,由标称数据产生概念分层。 ? ?三. 数据仓库与数据立方体技术 1. 数据仓库基本概念: ?? 1). 数据仓库定义:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。 ?? 2). 数据库与数据仓库的区别: ????? 主要区别在于数据库是面向事务操作处理的,而数据仓库是面向分析信息处理的。 ????? 数据库的用户为数据库专业人员、处理日常操作,而数据仓库为主管和分析人员,为决策提供支持。 ?? 3). 数据仓库体系架构: 底层数据,中间层OLAP服务器,顶层前端工具 ?? 4). 数据仓库模型: ???????? 企业仓库:提供企业范围内的数据集成,企业范围的 ???????? 数据集市:包含企业范围数据的一个子集,对特定的用户群,咸鱼选定的主题,部门范围的。 ???????? 虚拟仓库: 操作数据库上视图的集合 2. 数据仓库建模 数据立方体: 允许以多维数据建模和观察,由维(属性)和事实(数值)定义 方体:给定诸维的每个可能的自己产生一个方体,结果形成方

文档评论(0)

cduutang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档