- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实验3《》
实验学时: 2
每组人数: 1
实验类型: 2 (1:基础性 2:综合性 3:设计性 4:研究性)
实验要求: (1:必修 2:选修 3:其它)
实验类别: 3 (1:基础 2:专业基础 3:专业 4:其它)
一、实验目的
1.
2.
二、实验内容
三、实验要求
四、实验步骤
五、实验报告
1.完成本项目实验后,学生应提交实验报告。
2.实验报告格式与要求见附件。
《电子商务应用》
实验报告
项目名称
专业班级
学 号
姓 名
实验成绩:
批阅教师:
年 月 日
实验《》
实验学时: 实验地点: 实验日期:
一、实验目的
二、实验内容
1. 研究常用的网络蜘蛛爬行策略,如深度优先策略、广度优先策略、网页选择策略、重访策略和并行策略等,了解其实现原理;
2. 研究至少两种中文分词算法,了解其实现原理;
3. 研究至少两种网页正文提取算法,了解其实现原理;
4. 研究至少两种网页去重算法,了解其实现原理;
5. 研究Google的PageRank和MapReduce算法,了解它们的实现原理;
6. 使用所学的SEO技术,对实验二所设计的网站静态首页实施SEO,在实施过程中需采用如下技术:
(1) 网页标题(title)的优化;
(2) 选取合适的关键词并对关键词进行优化;
(3) 元标签的优化;
(4) 网站结构和URL的优化;
(5) 创建robots.txt文件,禁止蜘蛛抓取网站后台页面;
(6) 网页内部链接的优化;
(7) Heading标签的优化;
(8) 图片优化;
(9) 网页减肥技术。
7. 使用C++、C#和Java等任意一种编程语言,设计并实现一个简单的网络蜘蛛爬行程序,要求在输入关键词、设置爬行深度和初始网页URL之后能够实现网页搜索,输出包含关键词的网页的URL和网页标题。【注:实验7为补充实验,不要求每个同学都完成,感兴趣者可自行实现该程序,不计入实验报告评分。】
三、实验
1. 研究几种常用的网络蜘蛛爬行策略,填写相应的表格,表格必须填写完整;
2. 研究两种中文分词算法,填写相应的表格,表格必须填写完整;
3. 研究两种网页正文提取算法,填写相应的表格,表格必须填写完整;
4. 研究两种网页去重算法,填写相应的表格,表格必须填写完整;
5. 研究PageRank算法和MapReduce算法,填写相应的表格,表格必须填写完整;
6. 提供实施SEO之后的网站静态首页界面和HTML代码,尽量多地使用所学SEO技术;
7. 严禁大面积拷贝互联网上已有文字资料,尽量用自己的理解来阐述算法原理,必要时可以通过图形来描述算法;
8. 使用任意一种编程语言实现一个简单的网络蜘蛛程序,需提供网络蜘蛛程序完整源代码及实际运行结果。
四、实验步骤
五、实验结果/s/
blog_70c0549d0100ppy
m.html 重访策略 决定了搜索引擎利用何种更新策略对网页进行重新抓取。具体策略分类:(以网站更新频率为主要参考标准,根据网页类型不同调整更新频率,针对时效性关键词进行重访策略依据网站权重判断) [1]搜索引擎网页重访策略
.
/sd-info100.html 并行策略 并行策略是用来协调多个网络蜘蛛在相同的网络空间内同时搜索资源。这个策略的目标是提高网络资源的下载速度以及避免多个网络蜘蛛在同一个时间下载相同的资源 [1]June Huang 的blog [1] developerWorks中国:Java 设计模式. /developerworks/cn/java/design/.
[2] 阎宏. Java与模式. 北京: 电子工业出版社, 2004.
[3] 于满泉, 陈铁睿, 许洪波. 基于分块的网页信息解析器的研究与设计计算机应用, 2005, 25(4).
1)首先进行网页规范化处理,在规范会之前,去掉诸如“style”、“script”等与网页正文毫不相关但是内容很多的标签信息,可以加快处理速度并能更好的规范网页的结构;
2)标签相似度,提取标签中的内容并记录其出现位置,然后采用公式计算两个标签之间的相似度,标签中内容的位置越靠前,重要度越高;
3)文本内容相似度,中利用余弦距离来计算网页中每行文本内容之间的相似度
此算法旨在通过向量相似度的计算来提取正文型网页的正文内容。 [1] 王利,刘宗
文档评论(0)