- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎和搜索引擎优化(SEO)实验
PAGE
PAGE 52
实验三 搜索引擎及SEO实验
一、实验目的
研究并学习几种常见的搜索引擎算法,包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法,了解它们的基本实现原理;运用所学SEO技术对网页进行优化。
二、实验内容
1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;
2. 研究至少两种中文分词算法,了解其实现原理;
3. 研究至少两种网页正文提取算法,了解其实现原理;
4. 研究至少两种网页去重算法,了解其实现原理;
5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理;
6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:
(1) 网页标题(title)的优化;
(2) 选取合适的关键词并对关键词进行优化;
(3) 元标签的优化;
(4) 网站结构和URL的优化;
(5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面;
(6) 网页内部链接的优化;
(7) Heading标签的优化;
(8) 图片优化;
(9) 网页减肥技术。
7. 使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】
三、实验要求
1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;
2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;
3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;
4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;
5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;
6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;
7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;
8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。
四、实验步骤
1. 通过使用搜索引擎并查阅相关资料,研究并整理几种常用的网络蜘蛛爬行策略相关资料,填写相应的表格;
2. 通过使用搜索引擎并查阅相关资料,研究并整理两种中文分词算法的基本原理,填写相应的表格;
3. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页正文提取算法的基本原理,填写相应的表格;
4. 通过使用搜索引擎并查阅相关资料,研究并整理两种网页去重算法的基本原理,填写相应的表格;
5. 通过使用搜索引擎并查阅相关资料,研究并整理PageRank算法和MapReduce算法的基本原理,填写相应的表格;
6. 对实验二所设计的网站静态首页实施SEO;
7. 使用任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序。
五、实验报告要求
1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格:
策略名称基本原理参考资料深度优先策略深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的 HYPERLINK /view/394827.htm \t _blank HTML文件) 。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。
百度百科 深度优先搜索: HYPERLINK /view/288277.htm /view/288277.htm 广度优先策略宽度优先搜索算法(又称广度优先搜索)是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。其别名又叫BFS,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位址,彻底地搜索整张图,直到找到结果为止。
百度百科 广度优先搜索:/view/1242613.htm网页选择策略对搜索引擎而言,要搜索互联网上所有的网页几乎不可能,即使全球知名的搜索引擎google也只能搜索
您可能关注的文档
- 排版实习手册[印刷].doc
- 排泄是指机体将新陈代谢过程中所产生代谢产物.doc
- 排水.雨水管道安装技术交底.doc
- 排列组合、概率、随机变量和其分布列.doc
- 探寻国旗-国歌及国徽的诞生.doc
- 排水采气HSE作业的计划书.doc
- 掘进区“3讲3看3增强”书面报告.doc
- 探明石油地质储量动用规定及新区新建原油生产能力计算方法.doc
- 探寻适合国情IT项目管理方法论.docx
- 排列组合和概率统计基础.doc
- 2024年民航职业技能鉴定模拟题库附答案详解【预热题】.docx
- 2024年教育硕士试卷附完整答案详解(考点梳理).docx
- 2024年民航职业技能鉴定考试黑钻押题(综合卷)附答案详解.docx
- 2024年民航职业技能鉴定考试综合练习附参考答案详解(B卷).docx
- 2024年教育硕士考试综合练习含答案详解【夺分金卷】.docx
- 2024年教育硕士自我提分评估及答案详解(各地真题).docx
- 2024年教育硕士能力检测试卷含答案详解.docx
- 2024年民航职业技能鉴定考前冲刺试卷及完整答案详解(网校专用).docx
- 2024年民航职业技能鉴定考前冲刺练习精编附答案详解.docx
- 2024年教育硕士通关考试题库附参考答案详解(基础题).docx
文档评论(0)