小论文格式数据挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小论文格式数据挖掘.doc

数据仓库与数据挖掘技术的研究现状 2013级信息管理与信息系统专业1班2013051817郭东平 :讨论了数据仓库与数据挖掘技术的研究现状,分别从数据仓库、数据挖掘、数据粒度 划分、联机分析处理、决策支持系统和数据仓库与数据挖掘在医院中的应用。通过解析目 前数据仓库与数据挖掘技术的基本概念,浅显易懂的阐述了当前发张状况。 关键词:数据仓库数据挖掘 数据仓库技术是近年来出现的、发展迅速的一种技术,它通过把企业大量 的历史数据整理集中到一个中央仓库中,将数据加以分析并呈现给用户来支持 管理者的决策。数据仓库是一个整合式的、而向主题的、历史性的以及只读性 的数据集合,其主要目的是提供给企业管理者作为管理决策的参考依据。数据 挖掘技术作为基于机器学习、模式识别、统计学等领域而发展起来的从数据中 获取知识的技术也越来越得到人们的青睐。数据仓库使得人们只花很短的时间 就能够从大量的历史数据中奔询出所需的数据,而数据挖掘则可以从这些数据 中发现和预测出有价值的信息,数据仓库技术使我们从全新的视角认识了数 据的价值。然而,从目前的情况看,在中国数据仓库推广还处于起步阶段, 其应用所取得的成绩远不如商家们“炒作”得那么辉煌,仍然存在许多不成熟 因素,如计算机应用水平较低、数据保存和管理不完善、人才缺乏、没有真正 适合行业特点的应用技术等。但不管怎么说,数据仓库的应用对于中国企业 未来加入国际竞争有着不可替代的作用。 1数据仓库与数据挖掘 数据仓库是一个面向主题的集成的、相对稳定的、反映历史变化的数据集 合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解: 一,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作 型数据库;二,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行 了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。企业 数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓 库不是静态的概念,只有把信息及时交给需耍这些信息的使用者,供他们作出 改善其业务经营的决策,信息冰能发挥作用,信息冰有意义。而把信息加以 整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提 取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。原 始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如 文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法 可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了 的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于 数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域 的研宄者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的 学者和工程技术人员 2数据仓库中数据粒度的划分 确定粒度是数据仓库开发者需要面对的一个最重要的设计问题。如果数据仓 库的粒度确定得合理,设计和实现中的其余方面就可以非常顺畅地进行;反之, 如果粒度确定得不合理就会使得其它所有方面都很难进行。粒度对于数据仓库体 系结构设计人员来说也非常重耍,因为粒度会影响到那些依赖于从中获得数据的 数据仓库的所有环境。粒度的主耍问题是使其处于一个合适的级别,粒度的级别 既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储 空间和需耍较长的查询时间。高的粒度级别能快速方便的进行查询,但不能提供 过细的数据。在选择合适粒度级别的过程中,要结合业务的特点,分析的类型、 依据的总的存储空间的等因素综合考虑。其中分析的类型是最主耍的因素。 2.1数据仓库中的粒度模型 所谓粒度,指的是数据仓库中数据单元的细节程度或综合程度的级别,是数 据仓库中记录数据或对数据进行综合时所使用的时间段参数。它决定了数据仓 库中所存储的数据单元在时间上的详细程度和级别。粒度可分为两种形式,第一 种形式的粒度是对数据仓库中数据综合程度高低的一个度量,它既影响到数据仓 库中数据量的多少,也能影响到数据仓库所能回答的讯问的种类。粒度越小,则 详细程度越高,综合程度就越低,回答询问的种类也越多;相反,粒度越大,则 详细程度越低,综合程度就越高,回答询问的种类也就越少。另一种形式的粒度 是样木数据库粒度,与通常意义下的粒度不同,样木数据库的粒度级别不是根据 综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样 木数据库可以具有相同的综合级别。样木数据库一般是以一定的采样率从细节档 案数据或轻度综合数据中抽取的一个子集。它不是一般目的的数据库,而是根据 一定需求从数据源中获得的一个样木,因而也就不能回答一些细节性的问题。样

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档