- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
翔高教育
第一部分:数据结构
六、排序
1、增加了:(十)外部排序
2、后面的修改:(十一)各种内部排序算法的比较;(十二)内部排序算法的应用
【外部排序不是数据结构的重点,考生无需在这个知识点上花过多的时间,只需要做概
念的理解和记忆就行,这个知识点笔者预测会单独以选择题的形式下面,或者结合其他内部
排序算法以选择题形式一起考查。】
6.7.1
一、问题的提出
1.待排序的记录数量很大,不能一次装入内存,则无法利用前几节讨的排序方法。
2.定义:
外排序就是把待排序记录先存储在外存上,再分别部分地调入内存排序,在排序过
程中多次进行内、外存的数据交换的排序过程。
二、外部排序特点
1.文件大,内存放不下
2.需要在内外存之间进行多次交换
(1)文件在外存中的组织
两种基本外存设备:磁带和磁盘;
·磁带:典型的顺序设备;
·磁盘:典型的随机设备。
(2)文件在内存中的排序
·逻辑上信息按字符组(记录)存放;
·物理上读写(I/O 操作)按块顺序或随机进行;
·逻辑记录和物理块之间的对应关系;
(3)文件在内外存之间的交换
读取一个记录(字符组)
检查内存缓冲区有无此记录:若有,则可读;若无,则启动I/O 从外存读相应
的物理块到缓冲区,再从缓冲区内读取相应的记录。
写回一个记录:在缓冲区拼装成为一个物理块;启动I/O 写回到外存。
三、外部排序的基本过程
由相对独立的两个步骤组成:
1.按可用内存大小,利用内部排序的方法,构造若干(记录的)有序子序列,通常
称外存中这些记录有序子序列为“归并段”;
2.通过“归并”,逐步扩大(记录的)有序子序列的长度,直至外存中整个记录序
列按关键字有序为止。
例如:假设有一个含 10000 个记录的磁盘文件,而当前所用的计算机一次只能对 1000
个记录进行内部排序,则首先利用内部排序的方法得到10 个初始归并段,然后进行逐趟归
并。
假设进行2 路归并(即两两归并),则
第一趟由10 个归并段得到5 个归并段;
第二趟由5 个归并段得到3 个归并段;
‐ 1 ‐
翔高教育
第三趟由 3 个归并段得到2 个归并段;
最后一趟归并得到整个记录的有序序列。
分析上述外排过程中访问外存(对外存进行读/写)的次数:
假设“数据块”的大小为200,即每一次访问外存可以读/写200 个记录。
则对于10,000 个记录,处理一遍需访问外存100 次(读和写各50 次)。
由此,对上述例子而言,
1.求得10 个初始归并段需访问外存100 次;
2.每进行一趟归并需访问外存100 次;
3.总计访问外存 100 + 4*100 = 500 次。
外排总的时间还应包括内部排序所需时间和逐趟归并时进行内部归并的时间,显然,除
去内部排序的因素外,外部排序的时间取决于逐趟归并所需进行的“趟数”。
例如,若对上述例子采用5 路归并,则只需进行2 趟归并,总的访问外存的次数将压缩
到 100+ 2*100 = 300 次
一般情况下,假设待排记录序列含 m 个初始归并段,外排时采用 k 路归并,则归并趟
数为m/k ,显然,随之k 的增大归并的趟数将减少,因此对外排而言,通常采用多路归并。
k 的大小可选,但需综合考虑各种因素。
1.待排序的记录数量很大,不能一次装入内存,则无法利用前几节讨论的排序方法(否
则将引起频繁访问内存);
2.对外存中数据的读/写是以“数据块”为单位进行的;
读/写外存中一个“数据块”的数据所需要的时间为:
TI/O = tseek + tla + n·twm
其中
tseek 为寻查时间(查找该数据块所在磁道)
tla 为等待(延迟)时间
n·twm 为传输数据块中n 个记录的时间
四、外排序的难点
第一阶段:内部排序方法解决
第二阶段:可调用归并排序方法中的merge 算法,但同时需要I/O 读写!
1. 外排序时间
T=m*tIS+d*tIO+s*n*tmg
其中, tIS 是为得到一个初始归并段而进行内部排序所需要的时间;tIO 是进行一次
外存I/O 读写所需的平均时间; tmg 是对n 个记录进行内部归并所需的时间;m 是
初始归并段的个数;d 是总的读写次数;s 是归并的趟数。
2. 排序时间中各因素的分析
如何减小m, d, s?
假定l 为初始段所含的记录数,那么m=[n/l], 又物理块大小为pl (设l=c*p,c 为常
数),
q=[n/p]=c*[n/l]=c*m
为文件所占的物理块数,那么:
d=q*2+q*2*s=(1+s)*2*q=(1+s)*2*c*m=2*c*(1+s)*[n/l];
假设对m 个初始段进行k-路平衡归并时,总的读写次数:
d=2*c*(1+s)*[n/l]=2*c*(1+[logkm])*[n/l]=2*c*(1+ [logk[n
您可能关注的文档
最近下载
- 英语辅导班招生简章模板.pdf VIP
- 化学品安全技术说明书固化剂msds.pdf VIP
- 数据结构期末考试试卷a卷.doc VIP
- 人教版一年级语文上册期中考试试题(共3套,可直接打印).docx VIP
- 幼儿园保教综合楼招标控制价的编制.docx VIP
- 《通风与空调工程施工质量验收规范》GB50243-2016.docx VIP
- 医院标识标牌采购投标方案.docx
- 2025年外研版(三起)(2024)小学英语四年级上册期末考试模拟测试卷及答案.docx
- 专题233相似图形相似三角形的判定(举一反三讲义)数学华东师大版九年级上册(原卷版).docx
- 对跨越架设施及施工的基本要求.doc VIP
原创力文档


文档评论(0)