实验名称：网页的遍历.docVIP

下载本文档

9
0
约 3页
2017-09-11 发布于湖南
举报
版权申诉

实验名称：网页的遍历.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实验名称：网页的遍历背景描述：网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来，网络蜘蛛就是一个爬行程序，一个抓取网页的程序。在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下面这张简单化的网页连接模型图所示其中A为起点也就是蜘蛛索引的起点）。深度优先顾名思义就是让网络蜘蛛尽量的在抓取网页时往网页更深层次的挖掘进去，讲究的是深度！也泛指：网络蜘蛛将会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接！则访问的节点顺序为== A -- B -- E -- H -- I -- C -- D -- F -- K -- L -- G。深度爬行的优点是：网络蜘蛛程序在设计的时候相对比较容易些；缺点是每次爬行一层总要向蜘蛛老家数据库访问一下。问问老总有必要还要爬下一层吗！爬一层问一次……如果一个蜘蛛不管三七二十一不断往下爬，很可能迷路更有可能爬到国外的网站去，不仅增加了系统数据的复杂度更增加了服务器的负担。广度优先在这里的定义就是层爬行，即一层一层的爬行，按照层的分布与布局去索引处理与抓取网页。则访问的节点顺序为== A -- B -- C -- D -- E -- F -- G -- H -- I-- K -- L。广度爬行的优点是对数据抓取更容易控制些，对服务器的负栽相应也明显减轻了许多。问题描述：若用有向网表示网页的链接网络，其中顶点表示某个网页，有向弧表示网页之间的链接关系。试设计一个网络蜘蛛广度优先和深度优先策略抓取网页（权值都置为1）广度优先遍历先遍历输入顶点数和弧数:8 9 输入8个顶点. 输入顶点0:a 输入顶点1:b 输入顶点2:c 输入顶点3:d 输入顶点4:e 输入顶点5:f 输入顶点6:g 输入顶点7:h 输入9条弧. 输入弧0:a b 1 输入弧1:b d 1 输入弧2:b e 1 输入弧3:d h 1 输入弧4:e h 1 输入弧5:a c 1 输入弧6:c f 1 输入弧7:c g 1 输入弧8:f g 1 广度优先遍历: a b d h e c f g 深度优先遍历: a b c d e f g h …, n-1）。（2）此题为求有向图的遍历问题，可建立邻接矩阵或邻接表，编写dfs和bfs程序。