- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第11章文件与外部排序讲述
第11章 文件与外部排序
在许多实际应用中,特别是数据处理时,都需要长期存储海量数据,这些数据通常以文件的方式组织并存储在外存。如何有效地管理这些数据,从而给使用者提供方便而高效的使用数据的方法称为文件管理。
在实际存取这些海量数据时,为了方便使用,往往以某种顺序排序后再存储在外存上,这种排序称为外部排序。在排序时由于一次不能将数据文件中的所有数据同时装入内存中进行,因此就必须研究如何对外存上的数据进行排序的技术。
11.1 文件的基本概念
1 文件的基本概念
⑴ 数据项(Item或field) :数据文件中最小的基本单位,反映实体某一方面的特征—属性的数据表示。
⑵ 记录(Record) :一个实体的所有数据项的集合。 用来标识一个记录的数据项集合(一个或多个)称为关键字项(Key) ,关键字项的值称为关键字;能唯一标识一个记录的关键字称为主关键字(Primary Key),其它的关键字称为次关键字(Secondary Key) 。
通常的记录指的是逻辑记录,是从用户角度所看到的对数据的表示和存取的方式。
文件存储在外存上,通常是以块(I/O读写的基本单位,称为物理记录)存取。
物理记录和逻辑记录之间的关系是:
① 一个物理记录存放一个逻辑记录;
② 一个物理记录包含多个逻辑记录;
③ 多个物理记录存放一个逻辑记录。
⑶ 文件(File):大量性质相同的数据记录的集合。文件的所有记录是按某种排列顺序呈现在用户面前,这种排列顺序可以是按记录的关键字,也可以是按记录进入文件的先后等。则记录之间形成一种线性结构(逻辑上的),称为文件的逻辑结构;文件在外存上的组织方式称为文件的物理结构。基本的物理结构有:顺序结构,链接结构,索引结构 。
⑷ 文件的分类
⑴ 按记录类型,可分为操作系统文件和数据库文件:
① 操作系统文件(流式文件) : 连续的字符序列(串)的集合;
② 数据库文件: 有特定结构(所有记录的结构都相同)的数据记录的集合。
⑵ 按记录长度,可分为定长记录文件和不定长记录文件:
① 定长记录文件:文件中每个记录都有固定的数据项组成,每个数据项的长度都是固定的;
② 不定长记录文件:与定长记录文件相反。
2 文件的有关操作
文件是由大量记录组成的线性表,因此,对文件的操作主要是针对记录的,通常有:记录的检索、插入、删除、修改和排序,其中检索是最基本的操作。
⑴ 检索记录
根据用户的要求从文件中查找相应的记录。
① 查找下一个记录:找当前记录的下一个逻辑记录;
② 查找第k个记录:给出记录的逻辑序号,根据该序号查找相应的记录;
③ 按关键字查找:给出指定的关键字值,查找关键字值相同或满足条件的记录。对数据库文件,有以下四种按关键字查找的方式:
◆ 简单匹配:查找关键字的值与给定的值相等的记录;
◆ 区域匹配:查找关键字的值在某个区域范围内的记录;
◆ 函数匹配:给出关键字的某个函数,查找符合条件的记录;
◆ 组合条件匹配:给出用布尔表达式表示的多个条件组合,查找符合条件的记录。
⑵ 插入记录
将给定的记录插入到文件的指定位置。插入是首先要确定插入点的位置(检索记录),然后才能插入。
⑶ 删除记录
从文件中删除给定的记录。记录的删除有两种情况:
① 在文件中删除第k个记录;
② 在文件中删除符合条件的记录。
⑷ 修改记录
对符合条件的记录,更改某些属性值。修改时首先要检索到所要修改的记录,然后才能修改。
⑸ 记录排序
根据指定的关键字,对文件中的记录按关键字值的大小以非递减或非递增的方式重新排列(或存储)。
11.2 文件的组织方式
文件的组织方式指的是文件的物理结构。
11.2.1 顺序文件
记录按其在文件中的逻辑顺序依次进入存储介质。在顺序文件中,记录的逻辑顺序和存储顺序是一致的。
⑴ 根据记录是否按关键字排序:可分为排序顺序文件和一般顺序文件;
⑵ 根据逻辑上相邻的记录的物理位置关系:可分为连续顺序文件和链接顺序文件。
顺序文件类似于线性表的顺序存储结构,比较简单,适合于顺序存取的外存介质,但不适合随机处理。
11.2.2 索引文件
索引技术是组织大型数据库的一种重要技术,索引是记录和记录存储地址之间的对照表。索引结构(称为索引文件)由索引表和数据表两部分,如图11-1所示。
◆ 数据表:存储实际的数据记录;
◆ 索引表:存储记录的关键字和记录(存储)地址之间的对照表,每个元素称为一个索引项。
如果数据文件中的每一个记录都有一个索引项,这种索引称为稠密索引,否则,称为非稠密索引。
对于非稠密索
您可能关注的文档
最近下载
- 妊娠期间孕妇心理护理.pptx VIP
- 2025山东威海热电集团有限公司招聘37人考试备考题库及答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试参考题库附答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试备考试题及答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试模拟试题及答案解析.docx VIP
- 伤口造口失禁专科护士.docx VIP
- 伤口造口专科护士试题 造口试题 .pdf VIP
- 施工脚手架通用规范完整版2024.pdf VIP
- 临床执业医师妇产科学复习指导.pdf VIP
- NY∕T 391-2021 绿色食品 产地环境质量.pdf
文档评论(0)