1 数据挖掘每章知识.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章? 1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。? 2.不能在原数据库上做决策而要建造数据仓库的原因:传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:⑴决策处理的系统响应问题⑵决策数据需求的问题⑶决策数据操作的问题?????? 3.数据仓库的定义? W.H.Inmon的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。? 公认的数据仓库概念基本上采用了W.H.Inmon的定义:数据仓库是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。?? 数据仓库与数据挖掘的关系: ⑴数据仓库系统的数据可以作为数据挖掘的数据源。数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。⑵数据挖掘的数据源不一定必须是数据仓库系统。数据挖掘的数据源不一定必须是数据仓库,可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。 ?5.?数据挖掘的功能——7个方面:? ⑴概念描述:对某类对象的内涵进行描述,并概括这类对象的有关特征。①特征性描述②区别性描述? ⑵关联分析:若两个或多个变量间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。?⑶分类与预测①分类②预测? ⑷聚类分析:客观的按被处理对象的特征分类,将有相同特征的对象归为一类。? ⑸趋势分析:趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。 ?⑹孤立点分析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致的数据。? ⑺偏差分析:偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。? 6.?数据挖掘常用技术:? ⑴数据挖掘算法是数据挖掘技术的一部分 ⑵数据挖掘技术用于执行数据挖掘功能。 ⑶一个特定的数据挖掘功能只适用于给定的领域。? 按照上述思想,数据挖掘技术主要包含以下几种:⑴聚类检测方法⑵决策树方法⑶人工神经网络方法。? 人工神经网络方法:前馈式网络、反馈式网络和自组织网络。?? ?遗传算法基本算子:繁殖、交叉和变异。? 8.数据挖掘应用领域:? ⑴金融业⑵保险业⑶零售业⑷科学研究⑸其他领域? 9.?数据挖掘研究方向:? (1)专门用于知识发现的形式化和标准化的数据挖掘语言;? (2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;? (3)网络环境下的数据挖掘技术;? (4)加强对各种非结构化数据的挖掘。??? 10.?数据挖掘应用的热点:? (1)网站的数据挖掘(2)生物信息或基因的数据挖掘(3)文本的数据挖掘?? 11.?数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计3个技术领域。? 12.?数据挖掘产生的前提是:从大量数据中找出隐藏在其中的、有用的信息和规律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。??? 第二章? 1.主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。???? 从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。? 从数据组织的角度——一些数据集合,对分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉及数据之间的关系。? 数据仓库数据的4个基本特征:?? ⑴数据仓库的数据是面向主题的;? ⑵数据仓库的数据是集成的;? ⑶数据仓库的数据是不可更新的;? ⑷数据仓库的数据是随时间不断变化的。? 元数据“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。? 4.元数据在数据仓库中的作用? ⑴为决策支持系统分析员和高层决策人员服务提供便利?⑵解决面向应用的操作型环境和数据仓库的复杂关系?????? 5.元数据的分类? ⑴按元数据的类型:关于基本数据、用于数据处理和关于企业组织结构的元数据。? ⑵按抽象级别:概念级、逻辑级和物理级的元数据。? ⑶按元数据承担的任务:静态和动态? ⑷从用户的角度:技术元数据和业务元数据。? 元数据的内容? ⑴数据源的元数据? ⑵数据模型的元数据? ⑶数据准备区元数据? ⑷数据库管理系统元数据? ?⑸前台元数据????? 7.粒度的概念? 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。分为两

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档