数据挖掘技术第章数据仓库与数据挖掘技术概述.ppt

数据挖掘技术第章数据仓库与数据挖掘技术概述.ppt

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘概述 杨建林 苏新宁 邓三鸿 数据仓库概念 基本概念 对数据仓库的一些误解 基本概念 数据仓库 外部数据源 数据抽取 抽取存储区 数据清洗 数据转换 元数据 数据集市(Data Mart) 基本概念—数据仓库 外部数据源 构建一个数据仓库,必然要有充足的数据来源,从外部为数据仓库系统提供进行分析的“原材料”——数据,这些数据来源称为数据仓库的外部数据源。 外部数据源并不局限于传统数据库,可以是非结构化的信息,如文本文件,也可以是网络资源。 要保证数据仓库进行的分析能得出正确的、有价值的结论,就必须保证外部数据源的完整、正确。 外部数据源 以证券行业为例,在建立数据仓库,分析个股与股市大盘变动的关联关系时,除了必须将证券交易数据库(基于RDBMS系统)、交易所发布的行情库(DBF数据库)作为外部数据源之外,相关个股的重要文档资料,如上市公司年报(文本文件)等,也必须作为外部数据源,以便对个股的行情走势进行深入的分析,揭示内在原因。 数据抽取 外部数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持 外部数据源中数据冗余的现象也很普遍。 在外部数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。 因此,必须以主题的需求为依据,对数据源的内容进行有目的的选择,这一过程被称为“数据抽取”。 数据抽取 数据是否有抽取价值,取决于其与数据仓库主题的关联程度。 作为DW的外部数据源,证券交易数据库的“证券变动流水”(stock_variation)表中,有一个名为“柜台业务凭证号”(voucher_number)的字段。对于分析股市投资者盈亏的数据仓库而言,该字段无疑是多余的,在构建数据仓库时不必抽取。但如果数据仓库所支持的功能中,包含有以凭证号为依据的稽核功能,则该字段十分重要,不可忽略。 抽取存储区 在构建数据仓库的过程中,数据在从外部数据源抽取之后,正式导入数据仓库之前,应先存放在缓冲区中,以便进行进一步的数据清洗与数据转换工作,这一缓冲区即为“抽取存储区”。 在券商数据仓库中,从证券交易数据库、交易所行情库、个股重要文档库等外部数据源中抽取的数据,不可避免地存在着数据内容的缺陷和格式上的不一致,不能直接导入数据仓库,而应当暂时存放在系统的抽取存储区中,以待进一步的处理。 数据清洗 数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”——即数据有空缺、噪声等缺陷,而且在数据仓库的各数据源之间,其内容也存在着不一致的现象。 为了控制这些“脏数据”对数据仓库分析结果的影响程度,必须采取各种有效的措施,对这些“脏数据”进行处理,这一处理过程称为“数据清洗”。 对于任何数据仓库而言,数据清洗过程都是必不可少的。 数据清洗 不同类型的“脏数据”,清洗处理的方法是不同的 对于数据空缺,可以采用人工填补、统一补为常量、平均值填补等多种方法解决; 对于噪声数据,可以用分箱或聚类等方法处理; 而对于不一致的数据,则必须依据数据仓库所应用领域的特点,使用特定的方法加以解决。 数据清洗 以证券系统为例,证券交易数据库的“个人信息”(client_ info)表中,身份证号(IDcard_ number)字段如果出现错误(例如,将15位身份证号错为100812750230101),由于该字段的重要程度较低,可以忽略该错误;但如某客户在证券余额(stock_balance)表中,其“可用余额”(usable_ balance)数量与交易所对账库(sjsdz.dbf)中的“可用余额”(dzzqye)数量不一致,则必须以后者的数据覆盖前者,同时还应找到出现不一致的原因。 数据清洗 数据转换 数据仓库的外部数据源,其文件格式、所依赖的数据库平台等,是多种多样的,以数据库平台为例,可能是IBM的DB/2、SYBASE、INFORMIX、ORACLE,以及MICROSOFT SQL SERVER等数据库系统中的一个或多个,甚至可能是文本文件 在建立数据仓库时,必需对这些数据格式做转换处理,进行统一。 目前一些大的数据库厂商,在其数据仓库构建工具中,都提供了针对多种数据库系统的数据转换引擎,以简化数据仓库的构建工作。 数据转换 对于文本文件等非结构化的数据源,在进行数据转换时,必须针对实际应用,设计专门的“关键数据转换”程序。 元数据 所谓“元数据”,就是有关数据的数据,它是关于数据仓库中数据、操作数据的进程以及应用程序的结构和意义的描述信息。 元数据在数据仓库的设计、运行中,有着十分重要的作用,它所描述的对象,涉及数据仓库的各个方面。 元数据 元数据可以简单地归纳为以下三种类型: 1、关于数据结构的元数据 2、关于数据处理的元数据 3、关于企业组织的元数据 元数据 元数据可以简单地归纳为

文档评论(0)

ygxt89 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档