完整word版,数据仓库与数据挖掘知识总结,文档.docxVIP

完整word版,数据仓库与数据挖掘知识总结,文档.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华北科技学院 课程考查报告 班 级: 软件 B121 姓名 :_梁高荣 学 号: 201207044107 课程名称 : 数据仓库与数据挖掘 课程性质 : 专业选修 开设学期 : 2015-2016 学年第 1 学期 考核成绩 :______________________________ 任课教师 : 栾尚敏 2015年 11 月 20 日 目录 一.数据仓库 2 1.仓库的概念 2 2.数据仓库的特点 2 3.据仓库的结构 3 1.数据挖掘的概念 4 2.数据挖掘的作用 4 四、数据挖掘的步骤 5 1.信息收集 5 2.数据规约: 6 3.数据清理 6 4.数据变换 6 5.数据挖掘过程 6 6.模式评估 6 7 .知识表示 7 五、数据挖掘常的基本技 7 1. 统计学 7 2. 聚类分析和模式识别 7 3. 决策树分类技术 7 4. 人工神经网络和遗传基因算法 8 5. 规则归纳 8 6. 可视化技术 8 六、文本挖掘 8 1.文本挖掘的概念 8 2.文本挖掘方法 8 3.挖掘工具 9 4.应用 9 七、 Web 挖掘 9 1. Web 挖掘与 Web 信息检索 9 2. Web 挖掘的任务 10 3. Web 文本挖掘方法 12 一.数据仓库 1.仓库的概念 数据仓库 (Data Warehouse)是一个面向主题的 (Subjecl Oriented) 、集成的 (Integrate) 、相对稳定的 (Non-V olatile) 、反映历史变化 (Time Variant) 的数据集合,用 于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据 仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其 次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包 含历史数据,而且存放在数据仓库中的数据一般不再修改。 2.数据仓库的特点 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各 自分离。 数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念, 是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型 信息系统相关。 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数 据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不 一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变 化。数据仓库的数据主要供企业决策分析之用, 所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一 般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓 库中的数据通常包含历史信息, 系统记录了企业从过去某一时点(如开始应用数据仓 库的时点 )到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来 趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。 数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做 出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理 归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此, 从产业界的角度看,数据仓库建设是一个工程,是一个过程。 3.据仓库的结构 整个数据仓库系统是一个包含四个层次的体系结构: 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信 息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数 据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的 存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了 其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则 需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清 理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业 级数据仓库和部门级数据仓库 (通常称为数据集市 )。 OLAP 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进 行多角度、多层次的分析,并发现趋势。其具体实现可以分为: ROLAP 、 MOLAP 和 HOLAP 。 ROLAP

文档评论(0)

150****5607 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档