- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
倒排表文件的特点 ⑴ 优点 检索速度快,插入和删除操作比多重表文件简单。当插入一个记录时,只要将记录存入数据文件,并将其存储地址加入各倒排表中;删除也很方便。 ⑵ 缺点 倒排表维护比较困难。在同一索引表中,不同关键字值的记录数目不同,同一倒排表中的各项长度不等。 11. 3 外部排序 当对数据记录量巨大的数据文件进行排序时,由于受到内存容量的限制,无法将所有数据记录一次全部读入到内存进行。排序过程中需要多次进行内、外存之间的数据交换。利用外存对数据文件进行排序称为外部排序。 11.3.1 外部排序方法 外部排序最基本的方法是归并。这种方法是由两个相对独立的阶段组成: ① 按内存(缓冲区)的大小,将n个记录的数据文件分成若干个长度为l的段或子文件,依次读入内存并选择有效的内部排序方法进行排序;然后将排好序的有序子文件重新写入到外存。子文件称为归并段或顺串。 ② 采用归并的办法对归并段进行逐趟归并,使归并段的长度逐渐增大,直到最后合并成只有一个归并段的文件—排好序的文件。 1 外部排序的简单方法 归并排序有多种方法,最简单的就是2-路归并。 设有一个磁盘上的数据文件,共有100,000个记录(A1, A2, …,A100000),页块长为200个记录,供排序使用的缓冲区可提供容纳1000个记录的空间,现要对该文件进行排序,排序过程可按如下步骤进行: 第一步:每次将5个页块(1000个记录)由外存读到内存, 进行内排序,整个文件共得到10个初始顺串R1~R10 (每一个顺串占5个页块),然后把它们写回到磁盘上去,如图11-6所示。 第二步:然后两两归并,直到成为一个有序文件为止。 R’’1 有序的数据文件 R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R’1 R’2 R’3 R’4 R’5 R’’2 R’’3 R’’’1 R’’’2 图11-6 外部排序过程示意图 由图可知,每趟归并由m个归并段得到┌m/2┐个归并段。 2 外排序的时间分析 外排序的时间消耗比内排序大得多,原因是: ● 外排序的数据量(记录)一般很大; ● 外排序涉及到内、外存之间的数据交换操作; ● 外存的操作速度远远比内存中的操作慢。 外排序的总时间由三部分组成: 外排序的时间=产生初始归并段的时间(内排序)m×tis +I/O操作的时间d×tio +内部归并的时间s×utmg 其中: m:初始归并段数目;tis:得到一个归并段的内排序时间; d:总的读、写次数;tio:一次读、写的时间; s:归并的趟数;utmg:对u个记录进行一趟内部归并排序的时间。 一般地,tiotis,tiotmg,tio而取决于所用外存,因此,影响外排序效率的主要原因是内、外存之间数据交换(读、写外存)。提高效率的主要方法(途径)有: ● 进行多路归并,减少文件归并的趟数; ● 增加归并段的长度,减少初始归并的数目; ● 根据不同归并段的长度,采取最佳归并方案。 第11章 文件与外部排序 在许多实际应用中,特别是数据处理时,都需要长期存储海量数据,这些数据通常以文件的方式组织并存储在外存。如何有效地管理这些数据,从而给使用者提供方便而高效的使用数据的方法称为文件管理。 在实际存取这些海量数据时,为了方便使用,往往以某种顺序排序后再存储在外存上,这种排序称为外部排序。在排序时由于一次不能将数据文件中的所有数据同时装入内存中进行,因此就必须研究如何对外存上的数据进行排序的技术。 11.1 文件的基本概念 1 文件的基本概念 ⑴ 数据项(Item或field) :数据文件中最小的基本单位,反映实体某一方面的特征—属性的数据表示。 ⑵ 记录(Record) :一个实体的所有数据项的集合。 用来标识一个记录的数据项集合(一个或多个)称为关键字项(Key) ,关键字项的值称为关键字;能唯一标识一个记录的关键字称为主关键字(Primary Key),其它的关键字称为次关键字(Secondary Key) 。 通常的记录指的是逻辑记录,是从用户角度所看到的对数据的表示和存取的方式。 文件存储在外存上,通常是以块(I/O读写的基本单位,称为物理记录)存取。 物理记录和逻辑记录之间的关系是: ① 一个物理记录存放一个逻辑记录; ② 一个物理记录包含多个逻辑记录; ③ 多个物理记录存放一个逻辑记录。 ⑶ 文件(File):大量性质相同的数据记录的集合。文件的所有记录是
您可能关注的文档
最近下载
- 一种基于压力监测的输液港自动封堵装置.pdf VIP
- 菠菜种植课件PPT.pptx VIP
- 紫色复古风《莴苣姑娘》童话故事PPT模板.pptx VIP
- 盐雾试验报告-.docx VIP
- [青海]水电站厂房机电设备安装工程量清单及招标文件.doc VIP
- 拓展低空经济应用场景实施方案.pptx VIP
- 第5课 中国古代官员的选拔与管理 课件(共45张PPT) 统编版高中历史选择性必修1(内嵌视频+音频).pptx VIP
- 时间序列分析—基于Python王燕习题答案.pdf VIP
- 百度AI营销认证初级考试理论知识题库(628题).docx
- 2025年电力安全工作规程(发电厂和变电站电气部分)题库(294道) .pdf VIP
文档评论(0)