- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章
1.数据挖掘的定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
2.数据挖掘的过程:①确定业务对象 ② 数据准备 ③数据挖掘 ④结果分析与知识同化
3.数据挖掘的功能:①概念描述 ②关联分析 ③分类与预测 ④聚类分析 ⑤偏差分析 ⑥序列模式发现
4.数据挖掘的常用方法:①聚类分析 ②决策树 ③人工神经网络 ④粗糙集 ⑤关联规则挖掘 ⑥统计分析
5.数据仓库(BW):是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。
5.数据仓库和数据挖掘的关系(理解)
联系:①数据仓库为数据挖掘提供了更好更广泛的数据源。
②数据仓库为数据挖掘提供了新的支持平台。
③数据仓库为更好地使用数据挖掘工具提供了方便
④数据挖掘为数据仓库提供了更好的决策支持。
⑤数据挖掘对数据仓库的数据组织提出了更高的要求。
⑥数据挖掘还为数据仓库提供广泛的技术支持。
区别:①数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据及其综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
②数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
6. 常用的数据挖掘工具:SPSS、SAS、SQL Sever 2005、Weka、MATLAB.
第二章
1.数据仓库的概念:数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的的数据集合。
2.操作型数据与分析型数据的区别
3.数据仓库的特点 ①数据仓库的数据是面向主题的; ②数据仓库的数据是集成的;
③数据仓库的数据是不可更新的; ④数据仓库的数据是随时间不断变化的。
4.元数据:描述了数据仓库的数据和环境,即关于数据的数据。
5.元数据的分类:
按元数据的类型: ①关于基本数据的元数据 ②用于数据处理的元数据 ③关于企业组织结构的元数据
按抽象级别: ①概念级 ②逻辑级 ③物理级
按元数据承担的任务: ①静态元数据 ②动态元数据
从用户的角度:①技术元数据 ②业务元数据
6.粒度:是指数据仓库的数据单位中保存数据细化和综 合程度的级别。
粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。
7.分割:是指将数据分散到各自的物理单元中,以便能独立处理,以提高数据处理效率。
8.数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或业务领域等来进行分割,也可以按多个分割标准的组合来进行,但一般情况分割标准应包括日期项。
9.数据组织形式: ①简单堆积结构 ②轮转合综结构 ③简单直接结构 ④连续结构
10.数据仓库的模型: ①概念数据模型、②逻辑数据模型、③物理数据模型
11.数据仓库模型也可分为:高层数据模型、
中间层数据模型(连接数据组、基本数据组、二次数据组、类型数据组)
底层数据模型
12.数据仓库的设计步骤:(理解每个步骤具体做什么工作)
①概念模型设计:界定系统边界和确定主要的主题域及其内容
②技术准备工作:进行技术评估和技术环境的准备
③逻辑模型设计:主要工作包括分析主题域,确定当前要装载的主题,确定粒度层次划分,确定数据分割策略,关系模式定义,记录系统定义。
④物理模型设计:确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配
⑤数据仓库生成:主要进行接口设计和将数据装入。数据装入后,还要在其上建立数据仓库的应用
⑥数据仓库运行与维护:开发决策支持系统DNS的应用,进一步理解需求,调整和完善数据仓库系统,维护数据仓库。
13.SQL提供的解决方案 体系结构
SQLserver2005负责底层的数据库和数据仓库管理
SQLserver2005集成服务(SSIS)负责数据的抽取、装换和装载
SQLserver2005分析服务(SSAS)负责OLAP分析和数据挖掘
SQLserver2005报表服务(SSRS)负责前端展示。
第三章
1.OLAP和OLTP的区别:
OLAP(联机分析处理)是决策支持系统的有机组成部分。
OLTP(联机事务处理)
2.OLAP涉及到的基本概念:
①维是人们观察数据的特定角度。例如:时间、企业性质。
人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年),称这多个描述方面为维的层次。
4. OLAP特征:①快速性 ②可分析性 ③多维性 ④信息性 (多维性是O
您可能关注的文档
- 水处理厂工程设备安装方案.doc
- 水保重点整理14.doc
- 谁制造了朋友圈谣言?你们忙着瞎转,他们忙着数钱.doc
- 谁将成为北京未来商业中心.doc
- 数字证书相较其他身份认证方式的优势.doc
- 数字万用表修理.doc
- 数字图像处理试题(带答案).doc
- 数字区域地质调查数据质量检查表.doc
- 数字电视教学.doc
- 数字倒车雷达简介.doc
- 多点监督与特征融合校准:目标检测算法的创新与突破.docx
- 南宁市门诊HIV_AIDS患者抑郁状况剖析与影响因素探究.docx
- 医疗过失犯罪中客观归责理论的精准适用与深度解析.docx
- 南宁市低碳经济发展研究.docx
- 清解瘀毒胶囊对脑出血大鼠血红蛋白毒性作用及机制探究.docx
- 内蒙古赤峰市元宝山区农村小学教师培训:现状、问题与突破路径.docx
- 泉州开发区国有资产投资经营有限公司发展战略研究:基于区域经济与市场环境的分析.docx
- 能源利用效率与经济增长方式的深度耦合及中国战略抉择.docx
- 分布式信号波达方向 - 时延联合估计算法的深度剖析与创新探索.docx
- 新媒体环境下大学校园精神传播的创新变革.docx
文档评论(0)