- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据设计 Jin Bo jb21cn@zju.edu.cn College of Computer Science and Technology Zhejiang University 引言 数据设计是在系统设计阶段,为数据灯组织方式、存储结构以及数据恢复等开发物理规划 其内容涉及数据存储和访问,包括数据挖掘、数据仓库,物理设计问题、逻辑与物理记录、数据存储格式以及数据控制等一系列策略和工具 数据设计的概念 数据结构是数据组织和存储的框架,由若干个以不同方式联系的文件或表组成 文件处理系统以一个或多个独立的文件来存储和管理数据 每个文件和表中存放的是与系统交互的数据,这些数据包括了人、地点、事情或事件 一个信息系统是采用文件处理系统还是数据库管理系统,主要取决于系统中的文件和表的组织和联系方式 虽然文件处理系统还是有一些特殊的应用,但目前绝大多数信息系统都已经采用数据库管理系统 从文件系统到数据库系统的变革 文件系统主要用来定期处理大量结构化的数据,适合大型主机处理和数据的成批输入 在文件处理环境下,存在三个可能会产生严重后果的问题: 数据冗余:公共数据往往被在多个地点多次存储,使得存储空间及更新、维护的成本较高 数据完整性:由于数据冗余问题的存在,可能导致数据更新不完全并产生数据不一致 呆板数据结构问题:为某个综合应用获取基础数据可能会需要从多个相互独立的基于文件的系统中检索信息,导致速度满且效率低 在文件处理环境中,数据文件是为个别业务系统定制的 而数据库则避免了文件系统存在的上述问题,并支持实时和动态环境的整体框架 在数据库环境中,多个应用系统可以围绕一个中心数据库来建立 数据库管理系统 数据库管理系统(DBMS)是一系列工具、特性和提供给用户添加、更新、管理、访问和分析数据库内容的接口集合 从用户角度看,数据库管理系统的优点主要就是提供了实时、交互和灵活的数据访问方式,如 可伸缩性 更好地支持客户端/服务器系统 更具规模经济 灵活的数据共享方式 面向企业级的应用 更符合标准 冗余度得到控制 安全性更好 可以有效地提供程序员的效率 但它也有软硬件及支持多用户环境数据网络的成本较高、学习和使用成本较高以及安全、备份和恢复成本较高等带来的TCO(整体拥有成本)较高的缺点 数据设计的术语 在进行数据库设计前,首先要理解以下几个术语: 实体:是数据库收集、描述的对象,如人、地点、事情或事物等 字段:又称为属性,是实体的某一特征或事实 记录:是一组相关字段的集合,用以记录某个实例或实体的一次出现 表或文件:是由行或列构成的二维结构,包含一组相关记录,每一行都表示一条记录,存储的都是关于某一实体的数据;每一列都代表一个字段,描述实体的某一特性 参照完整性 是有效性检查的一种,可以避免数据输入错误,实际是一组可以防止数据不一致和避免数据质量问题的规则 通常,在建立数据库时,分析员设计定义参照完整性规则 实体-联系图(ERD) 是用来描述实体间交互和逻辑关系的模型,通常可以提供系统和构建物理数据结构蓝图的全局图 实体之间存在三种联系类型: 一对一联系:简写为1:1。意为一个实体出现在另一个实体的所有实例中 一对多联系:简写为1:M。意为一个实体出现在另一个实体的多个实例中,且另一实体的全部实例仅与前一个实体中的一个实例联系 多对多联系:简写为M:N。意为两个实体的多个实例彼此联系 标准化 标准化就是在数据库中通过合理分配数据库中各个表中的字段和属性来创建表设计的过程 在一系列初始阶段的表设计中,分析员被要求按照标准拟定一个简单、灵活且没有数据冗余的总体数据库设计 标准化包含许多规则,被用来标准分析员发现和纠正表设计中的内在问题,降低设计的复杂度 典型的标准化分为4步: 非规范设计: 第一范式: 第二范式: 第三范式 三个范式构成标准化的主要内容,且第三范式的要求最高,满足第三范式的表是最佳设计的表 大多数企业相关的数据库的设计都必须符合第三范式 数据设计中的编码 编码是一串用来代替数据项的数字或字母 编码可以简化输入、输出和数据格式 编码普遍存在于日常工作和生活当中,如身份证号、机动车牌照号、电话号码、机构编码等 由于编码通常都比它们所表示的数据短,所以使用编码可以节省存储空间和存储费用,减少传输时间和数据输入时间 另外,编码也可以减少输入错误,特别是编码比原始数据容易记忆和输入时 在特别的状态下,编码还能确保数据的安全。如密电码 编码类型 编码必须易于学习和使用,常用编码主要有8种: 序列码:按特定顺序排列的一串数字或字母 分段码:对不同分类使用不同的数字或字母 字母码:基于范畴、缩写或被称为记忆码的容易记忆以区分不同事物的编码 有效数字码:使用多段有效数字来区分事物。如身份证号码 派生编码:用不同项目的属性和特征的联合数据构成的编
文档评论(0)