数据挖掘11资料.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 1.数据挖掘的定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。 2.数据挖掘的过程:①确定业务对象 ② 数据准备 ③数据挖掘 ④结果分析与知识同化 3.数据挖掘的功能:①概念描述 ②关联分析 ③分类与预测 ④聚类分析 ⑤偏差分析 ⑥序列模式发现 4.数据挖掘的常用方法:①聚类分析 ②决策树 ③人工神经网络 ④粗糙集 ⑤关联规则挖掘 ⑥统计分析 5.数据仓库(BW):是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。 5.数据仓库和数据挖掘的关系(理解) 联系:①数据仓库为数据挖掘提供了更好更广泛的数据源。 ②数据仓库为数据挖掘提供了新的支持平台。 ③数据仓库为更好地使用数据挖掘工具提供了方便 ④数据挖掘为数据仓库提供了更好的决策支持。 ⑤数据挖掘对数据仓库的数据组织提出了更高的要求。 ⑥数据挖掘还为数据仓库提供广泛的技术支持。 区别:①数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据及其综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。 ②数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。 6. 常用的数据挖掘工具:SPSS、SAS、SQL Sever 2005、Weka、MATLAB. 第二章 1.数据仓库的概念:数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的的数据集合。 2.操作型数据与分析型数据的区别 3.数据仓库的特点 ①数据仓库的数据是面向主题的; ②数据仓库的数据是集成的; ③数据仓库的数据是不可更新的; ④数据仓库的数据是随时间不断变化的。 4.元数据:描述了数据仓库的数据和环境,即关于数据的数据。 5.元数据的分类: 按元数据的类型: ①关于基本数据的元数据 ②用于数据处理的元数据 ③关于企业组织结构的元数据 按抽象级别: ①概念级 ②逻辑级 ③物理级 按元数据承担的任务: ①静态元数据 ②动态元数据 从用户的角度:①技术元数据 ②业务元数据 6.粒度:是指数据仓库的数据单位中保存数据细化和综 合程度的级别。 粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。 7.分割:是指将数据分散到各自的物理单元中,以便能独立处理,以提高数据处理效率。 8.数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或业务领域等来进行分割,也可以按多个分割标准的组合来进行,但一般情况分割标准应包括日期项。 9.数据组织形式: ①简单堆积结构 ②轮转合综结构 ③简单直接结构 ④连续结构 10.数据仓库的模型: ①概念数据模型、②逻辑数据模型、③物理数据模型 11.数据仓库模型也可分为:高层数据模型、 中间层数据模型(连接数据组、基本数据组、二次数据组、类型数据组) 底层数据模型 12.数据仓库的设计步骤:(理解每个步骤具体做什么工作) ①概念模型设计:界定系统边界和确定主要的主题域及其内容 ②技术准备工作:进行技术评估和技术环境的准备 ③逻辑模型设计:主要工作包括分析主题域,确定当前要装载的主题,确定粒度层次划分,确定数据分割策略,关系模式定义,记录系统定义。 ④物理模型设计:确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配 ⑤数据仓库生成:主要进行接口设计和将数据装入。数据装入后,还要在其上建立数据仓库的应用 ⑥数据仓库运行与维护:开发决策支持系统DNS的应用,进一步理解需求,调整和完善数据仓库系统,维护数据仓库。 13.SQL提供的解决方案 体系结构 SQLserver2005负责底层的数据库和数据仓库管理 SQLserver2005集成服务(SSIS)负责数据的抽取、装换和装载 SQLserver2005分析服务(SSAS)负责OLAP分析和数据挖掘 SQLserver2005报表服务(SSRS)负责前端展示。 第三章 1.OLAP和OLTP的区别: OLAP(联机分析处理)是决策支持系统的有机组成部分。 OLTP(联机事务处理) 2.OLAP涉及到的基本概念: ①维是人们观察数据的特定角度。例如:时间、企业性质。 人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年),称这多个描述方面为维的层次。 4. OLAP特征:①快速性 ②可分析性 ③多维性 ④信息性 (多维性是O

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档