- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
系统架构师的心得
数据库系统
数据仓库与传统数据的区别
比较项目 数据库 数据仓库 数据内容 当前值 历史的、归档的、归纳的、计算的数据 数据目标 面向业务操作程序、重复操作 面向主体域,分析应用 数据特性 动态变化、更新 静态、不能直接更新,只能定时添加、更新 数据结构 高度结构化、复杂、适合操作计算 简单、适合分析 使用频率 高 低 数据访问量 每个事务一般只访问少量记录 每个事务都需要访问大量记录 对响应时间的要求 计时单位小、如秒 计时单位相对较大,除了秒,还有分,小时 数据仓库分为:数据集市、企业仓库和虚拟仓库
数据仓库主要包含了数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库已经各种管理工具和应用工具
数据仓库的参考架构:
数据仓库基本功能层:包括了数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,已经存取和使用部分。其基本功能是从数据源抽取数据,对所抽取的数据进行筛选、清理,将处理过的数据导入或者说加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等。
数据仓库管理层:由数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的管理层包含了数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统以及数据归档、恢复和净化系统4个部分。
数据仓库环境支持层:包括了数据仓库数据传输层和数据仓库基础层组成。
数据挖掘:长期对数据库技术进行研究和开发的结果。
数据挖掘的特征:没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应该具有先知、有效和可实用三个特征。
数据挖掘的功能:
自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性的信息,以往需要大量手工分析的问题如今可以迅速直接由数据本身得出结论。
关联分析:关联分析的目的是找出数据库中隐藏的关联网。关联分为:简单关联,时序关联和因果关联。
聚类:数据库中的记录可划分为一系列的有意义的子集。
概念描述:
偏差检测:偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
数据挖掘常用的技术:
决策树:
神经网络
遗传算法
关联规则挖掘算法
数据挖掘分析方法:
关联分析
序列分析
分类分析
聚类分析
预测
时间序列分析
数据挖掘的流程:
问题定义:要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么
建立数据挖掘库:把要挖掘的数据都收集到一个数据库中,而不是采用原有的数据库或数据仓库。因为大部分情况下需要修改要万巨额的数据,而且还会遇到采用外部数据的情况。另外还需要对数据进行各种纷繁复杂的统计分析,而数据仓库可能不支持这些数据结构。
分析数据:通常所进行的对数据深入调查的过程。
调整数据
模型化
评价与解释
数据库建模
使用数据模型比使用过程模型的优越性:
数据模型有助于分析员快速地确定业务词汇(比过程模型确定的更全面)
数据模型几乎总是比过程模型构造的快
一个完整的数据模型可以记录在一页纸上,而过程模型要十几页纸
过程模型经常使人容易陷入不必要的细节中
现有系统和建议系统的数据模型之间的相似性远比他们的过程模型的相似性高。
问题分析阶段的模型应该仅仅包括实体和关系,而不包括属性。
数据库建模过程:
获取实体
实体获取指南:
在与系统所有者和用户的面谈或JRP会议中,注意他们讨论的关键词
在面谈或JRP中,专门要求系统所有者和用户确定他们想收集、存储和生成信息的事物。
确定实体的另一个技术的研究现有表格、文件和报告
如果用例描述在需求分析阶段被记录下来,那么它们就可能成为数据属性和实体的来源
逆向工程中获取
注意:实体的名称应该是简单的、有意义的、面向业务的、实例的数量应该是很多的。
构造上下文数据模型
基于键的数据模型
建立键的原则:
在每个实体实例的生命周期中,不会改变
键值不能为空
确保键值的有效性
在一定的情况下,使用智能键
对于对立的实体,使用代理键来替代大型复合键
泛化层次体系(建立超类与子类的体系)
具有完整属性的数据模型
组织内部认定的命名标准和认可的简写方式,由DBA维护
仔细选择每个属性的名称。除非属性可以被泛化成一个超类,否则最好给每个变量一个唯一的名称。并不使用简写
现有表格和文件中的物理属性名称经常被简写以节省空间。
对于BOOL的属性,最好以问题的形式命名
外间是对非冗余规则的一个例外
一个属性的域不应该是逻辑的
规范化
将数据需求映射到地点
在将数据需求映射到地点的技术中,可以根据以下的问题来划分:
在每个地点需要实体和属性的哪些子集来完成工作?
需要什么级别的访问?
该地点可以创建实体实例吗?
该地点可以读取实体实例吗?
该地点可以删除实体实例吗?
该地点可以修改实体实例吗?
解决此问题的技术主要是:数据——地点——
文档评论(0)