搜索引擎与搜索引擎优化(SEO)实验.doc

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验一、实验目的 二、实验内容 三、实验要求 四、实验步骤 五、实验报告要求 深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件) 。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。 /view/288277.htm 广度优先策略 宽度优先搜索算法(又称广度优先搜索)是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位址,彻底地搜索整张图,直到找到结果为止。 /view/1242613.htm 网页选择策略 对搜索引擎而言,要搜索互联网上所有的网页几乎不可能,即使全球知名的搜索引擎google也只能搜索整个Internet网页的30%左右。其中的原因主要有两方面,一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页;二是存储技术和处理技术的问题。因此,网络爬虫在抓取网页时。 尽量先采集重要的网页,即采用网页优先抓取策略。 网页选择策略是给予重要程度、等级较高的Web页以较高的抓取优先级,即Web页越重要,则越应优先抓取。其实质上是一种使网络爬虫在一定条件下较快地锁定互联网中被用户普遍关注的重要信息资源的方法。而实现该策略的前提是正确评测Web页的重要程度bJ,目前评测的主要指标有PageRank值、平均链接深度等。 李志义《网络爬虫的优化策略探略》,广东广州510631 重访策略 (1)依据Web站点的更新频率确定重访频率 此法符合实际情况,能够更有效地管理和利用网络爬 虫。例如,门户网站通常每天要不断地更新信息和添加新 的信息,重访的频率则以天或小时为周期进行网页的重访。 (2)不关心Web站点的更新频率问题,而是间隔一段 时间重访已被抓取的冈页。其弊端是重复抓取的概率大, 容易造成不必要的资源浪费。 (3)根据搜索引擎开发商对网页的主观评价,提供个 性化的服务 网页的重访需要搜索引擎开发商对主要的站点进行网 页更新频率的主观评价,可以根据需求提供个性化的服务。 李志义《网络爬虫的优化策略探略》,广东广州510631 并行策略 实施并行策略的核心是在增加协同工作的爬虫数量的同时,科学合理地分配每个爬虫的任务,尽量避免不同的爬虫做相同的Web信息抓取。一般通过两种方法来分配抓取任务,一是按照Web站点所对应的m地址划分任务,一个爬虫只需遍历某一组地址所包含Web页即可;另一种方法是依据Web站点的域名动态分配爬行任务,每个爬虫完成某个或某些域名段内Web信息的搜集。 李志义《网络爬虫的优化策略探略》,广东广州510631 2. 研究两种中文分词算法并填写如下表格: 算法名称 基本原理 参考资料 算法一:最大匹配算法 最大匹配算法是一种有着广泛应用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则.即“长词优先”原则,来进行分词 张玉茹 肇庆526070《中文分词算法之最大匹配算法的研究》 算法二:基于无词典的分词算法 基于汉字之间的互信息和t-测试信息的分词算法。汉语的词可以理解为字与字之间的稳定结合,因此。如果在上下文中某几个相邻的字出现的次数越多,那么,这几个字成词的可能性就很大。根据这个道理引入互信息(Mutual information)和t-测试值(t—score)的概念,用来表示两个汉字之间结合关系的紧密程度。该方法的分词原理是:对于一个汉字字符串,计算汉字之间的互信息和t-测试差信息,选择互信息和t-测试差信息大的组成词。该方法的局限性是只能处 理长度为2的词,且对于一些共现频率高的但并不是词的字组,常被提取出来,并且常用词的计算开销大,但可以识别一些新词,消除歧义。对于一个成熟的 分词系统来说,不可能单独依靠某一个算法来实现,都需要综合不同的算法,在实际的应用中,要根据具体的情况来选择不同的分词方案。 刘红芝 徐州医学院图书馆 江苏徐州221004《中文分词技术的研究》 3. 研究两种网页正文提取算法并填写如下表格: 算法名称 基本原理 参考资料 算法一基于相似度的中文网页正文提取算法 正文文本在HTML源文件中有两种修饰方式:有标签提示和无标签提示。有标签文本中标签的作用一般包含分块信息、表格信息、或者文本的字体颜色信息等。这种文本采用基

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档