- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[管理学]商务智能与决策支持系统06-DW
DB、ODS、DW间的比较如表2-2所示。 表2-2 DB、ODS和DW数据特征的差异 2.5 外部数据和非结构数据 2.5.1 外部数据的特征 2.5.2 为什么将外部数据放在数据仓库 2.5.3 对外部数据进行管理的元数据 2.5.4 外部数据(非结构化数据)的存储 2.5.5 外部数据的使用 2.5、外部数据和非结构数据 在数据仓库中组织的大部分数据是以业务系统为来源的数据,我们可以将它们称为内部结构化数据。 内部是指数据来源于企业内部,主要描述的是企业内部的信息。 结构化是指这些数据原先就存储在数据库系统中,对数据的存储结构和管理都有规则的形式。 企业是在竞争环境中求生存和发展的。因此一个良好的决策支持系统必须既能使决策者了解企业内部的情况,又能够使决策者参考企业外部的信息。 我们把这些来自于企业外部,描述企业外部环境的数据称为外部数据。 2.5 外部数据和非结构数据 2.5.1 外部数据的特征 2.5.2 为什么将外部数据放在数据仓库 2.5.3 对外部数据进行管理的元数据 2.5.4 外部数据(非结构化数据)的存储 2.5.5 外部数据的使用 1、外部数据的特征 外部数据与内部数据相比,存在许多不同的特点,这些特点包括: 企业内部的数据具有规则的形式,而外部数据的形式可能是多种多样; 企业内部数据来源于企业内部的数据库系统,而外部数据的来源广泛; 外部数据的使用上具有不可预测性。 1)从数据的格式上看,企业内部的数据通常具有规则的形式,而外部数据的形式可能是多种多样,比如: 文本。 例如企业数据分析员从报刊杂志上摘录的相关文章、国家的相关文件、企业和其他公司签订的合同、市场调查报告等。 数据表格。 例如今年同行业各企业的产值和利润、国家在相关产品上的税收情况等。 图像。 声音。由于多媒体技术的发展,图像和声音成为记录信息非常方便直观的方式。 例如,专家的讲课录像、经验交流会的录音等。 2)从数据的来源上看,企业内部数据主要来源于企业内部的数据库系统,而外部数据的来源可以非常广泛,比如: 报刊文摘。 相关技术报告。 市场竞争分析。 国家的指导性政策文件。 市场调查的结果。 3)从数据的获取上看, 数据仓库系统可以定期从企业的数据库中抽取需要的数据; 而外部数据的抽取是不可预测的,任何时候信息员认为某项外部数据对企业决策有用,都可以将其整理并收录进数据仓库。 4)从数据的使用上看,不同的外部数据使用的频度可能相差很大。 数据仓库必须一直监控数据的使用情况才能获得各种外部数据使用的频度情况,进而采用不同的存储策略。 企业的内部数据比较规范,数据仓库比较容易对其进行监控。 2.5 外部数据和非结构数据 2.5.1 外部数据的特征 2.5.2 为什么将外部数据放在数据仓库 2.5.3 对外部数据进行管理的元数据 2.5.4 外部数据(非结构化数据)的存储 2.5.5 外部数据的使用 2、为什么将外部数据放在数据仓库 由于外部数据的来源广泛,如果不对外部数据进入企业信息系统进行控制,就会出现蜘蛛网问题。 不同部门的信息员收录不同的外部信息,而这些信息之间可能有很大的差异,使得企业的信息使用者不能获得一致的数据,最终得到不同的结论。 如图2-47(图1-2)所示说明了这种情况。 将外部数据经过统一的整理后再放进企业级数据仓库,就能够为数据分析人员提供一致的数据。 如图2—48所示。 对于具有规则形式的外部数据,我们应当使用处理内部数据类似的方法进行数据的清洗和集成。 对于非结构化的外部数据,应当采用元数据进行管理。 2.5 外部数据和非结构数据 2.5.1 外部数据的特征 2.5.2 为什么将外部数据放在数据仓库 2.5.3 对外部数据进行管理的元数据 2.5.4 外部数据(非结构化数据)的存储 2.5.5 外部数据的使用 3、对外部数据进行管理的元数据 我们知道元数据是数据仓库中非常重要的组成部分,它是数据仓库组织的“灵魂”。 对外部数据进行管理的元数据和对内部数据进行管理的元数据的内容不同。 对于外部数据,需要说明的元数据通常包括: 1)文件标识 文件标识是为了方便数据仓库对文件进行定位和检索。 2)数据进入数据仓库的时间 记录下数据进入仓库的时间,有如下作用: (1)数据分析员可以检索指定时间段内的外部数据; (2)数据分析员可以在引用数据时附加上时间信息,使得数据本身的有效性得到保证; (3)可以为数据仓库的清理提供时间依据,我们可以对过时的数据进行清理。 3)文件内容的描述 简单说明文件的内容,方便数据分析员使用。 4)文件的来源 记录文件的来源非常重要,数据来源不同得到的分析结果也可能不同。 5)文件的类别归属 根据企业对外部信息的需求情况将对信息进
文档评论(0)