中南大学电子商务实验三重点解读.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《电子商务应用》 实验报告 项目名称 搜索引擎及SEO实验 专业班级 软件03 学 号 姓 名 实验成绩: 批阅教师: 年12 月26 日 实验《》 实验学时: 2 实验地点: 二综 实验日期: 2014 一、实验目的 二、实验内容 1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理; 2. 研究至少两种中文分词算法,了解其实现原理; 3. 研究至少两种网页正文提取算法,了解其实现原理; 4. 研究至少两种网页去重算法,了解其实现原理; 5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理; 6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术: (1) 网页标题(title)的优化; (2) 选取合适的关键词并对关键词进行优化; (3) 元标签的优化; (4) 网站结构和URL的优化; (5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面; (6) 网页内部链接的优化; (7) Heading标签的优化; (8) 图片优化; (9) 网页减肥技术。 7. 使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】 三、实验 1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整; 2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整; 3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整; 4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整; 5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整; 6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术; 7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法; 8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。 四、实验步骤 五、实验结果1]百度百科:深度优先搜索/view/288277.htm 广度优先策略 已知图G=(V,E)和一个源顶点s,宽度优先搜索以一种系统的方式探寻G的边,从而“发现”s所能到达的所有顶点,并计算s到所有这些顶点的距离(最少边数),该算法同时能生成一棵根为s且包括所有可达顶点的宽度优先树。对从s可达的任意顶点v,宽度优先树中从s到v的路径对应于图G中从s到v的最短路径,即包含最小边数的路径。该算法对有向图和无向图同样适用。 [1]百度百科:广度优先搜索/view/288267.htm 网页选择策略 对搜索引擎而言,要搜索互联网上所有的网页几乎不可能,即使全球知名的搜索引擎google也只能搜索整个Internet网页的30%左右。其中的原因主要有两方面,一是抓取技术的瓶颈。网络爬虫无法遍历所有的网页;二是存储技术和处理技术的问题。因此,网络爬虫在抓取网页时。 尽量先采集重要的网页,即采用网页优先抓取策略。 网页选择策略是给予重要程度、等级较高的Web页以较高的抓取优先级,即Web页越重要,则越应优先抓取。其实质上是一种使网络爬虫在一定条件下较快地锁定互联网中被用户普遍关注的重要信息资源的方法。而实现该策略的前提是正确评测Web页的重要程度bJ,目前评测的主要指标有PageRank值、平均链接深度等。 [1]李志义 2011,31(10) 重访策略 1)依据Web站点的更新频率确定重访频率 此法符合实际情况,能够更有效地管理和利用网络爬 虫。例如,门户网站通常每天要不断地更新信息和添加新 的信息,重访的频率则以天或小时为周期进行网页的重访。 (2)不关心Web站点的更新频率问题,而是间隔一段 时间重访已被抓取的冈页。其弊端是重复抓取的概率大, 容易造成不必要的资源浪费。 (3)根据搜索引擎开发商对网页的主观评价,提供个 性化的服务 网页的重访需要搜索引擎开发商对主要的站点进行网 页更新频率的主观评价,可以根据需求提供个性化的服务。 [1]李志义 2011,31(10) 并行策略 实施并行策略的核心是在增加协同工作的爬虫数量的同时,科学合理地分配每个爬虫的任务,尽量避免不同的爬虫做相同的Web信息抓取。一般通过两种方法来分配抓取任务,一是

文档评论(0)

武神赵子龙 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档