3901130721-谭淇蔚-电子商务实验3..docxVIP

下载本文档

4
0
约2.43万字
约 41页
2017-01-27 发布于重庆
举报
版权申诉

3901130721-谭淇蔚-电子商务实验3..docx

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3901130721-谭淇蔚-电子商务实验3.

《电子商务应用》实验报告项目名称搜索引擎及SEO实验专业班级软件工程1307班学号 3901130721 姓名谭淇蔚实验成绩：批阅教师：2015年 11 月 24 日实验3《搜索引擎及SEO实验》实验学时： 2 实验地点： X204 实验日期： 2015年11月24日星期二一、实验目的研究并学习几种常见的搜索引擎算法，包括网络蜘蛛爬行策略、中文分词算法、网页正文提取算法、网页去重算法、PageRank和MapReduce算法，了解它们的基本实现原理；运用所学SEO技术对网页进行优化。二、实验内容和方法1. 研究常用的网络蜘蛛爬行策略，如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等，了解其实现原理；2. 研究至少两种中文分词算法，了解其实现原理；3. 研究至少两种网页正文提取算法，了解其实现原理；4. 研究至少两种网页去重算法，了解其实现原理；5. 研究Google的PageRank和MapReduce算法，了解它们的实现原理；6. 使用所学的SEO技术，对实验二所设计的网站静态首页实施SEO，在实施过程中需采用如下技术：(1) 网页标题(title)的优化；(2) 选取合适的关键词并对关键词进行优化；(3) 元标签的优化；(4) 网站结构和URL的优化；(5) 创建robots.txt文件，禁止蜘蛛抓取网站后台页面；(6) 网页内部链接的优化；(7) Heading标签的优化；(8) 图片优化；(9) 网页减肥技术。7. 使用C++、C#和Java等任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序，要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索，输出包含关键词的网页的URL和网页标题。【注：实验7为补充实验，不要求每个同学都完成，感兴趣者可自行实现该程序，不计入实验报告评分。】三、实验要求1. 研究几种常用的网络蜘蛛爬行策略，填写相应的表格，表格必须填写完整；2. 研究两种中文分词算法，填写相应的表格，表格必须填写完整；3. 研究两种网页正文提取算法，填写相应的表格，表格必须填写完整；4. 研究两种网页去重算法，填写相应的表格，表格必须填写完整；5. 研究PageRank算法和MapReduce算法，填写相应的表格，表格必须填写完整；6. 提供实施SEO之后的网站静态首页界面和HTML代码，尽量多地使用所学SEO技术；7. 严禁大面积拷贝互联网上已有文字资料，尽量用自己的理解来阐述算法原理，必要时可以通过图形来描述算法；8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序，需提供网络蜘蛛程序完整源代码及实际运行结果。四、实验步骤1. 通过使用搜索引擎并查阅相关资料，研究并整理几种常用的网络蜘蛛爬行策略相关资料，填写相应的表格；2. 通过使用搜索引擎并查阅相关资料，研究并整理两种中文分词算法的基本原理，填写相应的表格；3. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页正文提取算法的基本原理，填写相应的表格；4. 通过使用搜索引擎并查阅相关资料，研究并整理两种网页去重算法的基本原理，填写相应的表格；5. 通过使用搜索引擎并查阅相关资料，研究并整理PageRank算法和MapReduce算法的基本原理，填写相应的表格；6. 对实验二所设计的网站静态首页实施SEO；7. 使用任意一种编程语言，设计并实现一个简单的网络蜘蛛爬行程序。五、实验结果1. 研究几种常用的网络蜘蛛爬行策略并填写如下表格：策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注：参考资料格式如下：[1] developerWorks中国：Java 设计模式. /developerworks/cn/java/design/.[2] 阎宏. Java与模式. 北京: 电子工业出版社, 2004.[3] 于满泉, 陈铁睿, 许洪波. 基于分块的网页信息解析器的研究与设计. 计算机应用, 2005, 25(4).解：策略名称基本原理参考资料深度优先策略在深度优先搜索中，针对最新发现的网页源顶点P，如果它还有以此为起点而尚未搜索到的路径，则沿此路径继续搜素下去。反之，如果当顶点P的所有路径均已经被搜索过，则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P‘，则继续选择其中一个作为源顶点并重复以上过程，最终实现所有顶点都被遍历。 [1]李耀华,杨海燕. 论网络爬虫搜索策略[J]. 山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍历策略，可理解为一种基于网络层次分析的遍历策略，是将网络划分成若干层次，其中，种子站点是处于结构的最顶层。在遍历时, 需要处理Web 页之间的抓取优先级的问