- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用标准文案
Python 网络爬虫实习报告
精彩文档
实用标准文案
目录
一、选题背景
- 2 -
二、爬虫原理
- 2 -
三、爬虫历史和分类
- 2 -
四、常用爬虫框架比较
- 2 -
五、数据爬取实战(豆瓣网爬取电影数据)
- 3 -
1
分析网页
-3 -
2
爬取数据
-3
-
3
数据整理、转换
-4
-
4
数据保存、展示
-9
-
5
技术难点关键点
-10
-
六、总结
- 13 -
精彩文档
实用标准文案
一、 选题背景
二、 爬虫原理
三、 爬虫历史和分类
四、 常用爬虫框架比较
Scrapy 框架 : Scrapy 框架是一套比较成熟的 Python 爬虫框架,是使用
Python 开发的快速、高层次的信息爬取框架,可以高效的爬取 web页
面并提取出结构化数据。 Scrapy 应用范围很广, 爬虫开发、数据挖掘、数据监测、自动化测试等。
Crawley 框架 : Crawley 也是 Python 开发出的爬虫框架, 该框架致力于
改变人们从互联网中提取数据的方式。
Portia 框架 : Portia 框架是一款允许没有任何编程基础的用户可视化
地爬取网页的爬虫框架。
newspaper 框架 : newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。
Python-goose 框架: Python-goose 框架可提取的信息包括: 1文章主体内容 ;2 文章主要图片 ;3 文章中嵌入的任 heYoutube/Vimeo 视
;4 元描述 ;5 元标签
精彩文档
实用标准文案
五、数据爬取实战(豆瓣网爬取电影数据)
分析网页
获取 html 源代码
def __getHtml():
data = []
pageNum = 1
pageSize = 0
try:
while (pageSize = 125):
# headers = {User-Agent:Mozilla/5.0 (Windows NT
6.1) AppleWebKit/537.11 (KHTML, like Gecko)
Chrome/23.0.1271.64 Safari/537.11,
# Referer:None # 注意如果依然不能抓取的话,这里
可以设置抓取网站的 host
}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
url = /top250?start= +
str(pageSize) + filter= + str(pageNum)
data[html%s %
]=urllib.request.urlopen(url).read().decode(utf-8)
精彩文档
实用标准文案
data.append(urllib.request.urlopen(url).read().decode(utf-
8))
pageSize += 25
pageNum += 1
print(pageSize, pageNum)
except Exception as e:
raise e
return data
爬取数据
def __getData(html):
title = [] # 电影标题
#rating_num = [] # 评分
range_num = [] # 排名
#rating_people_num = [] # 评价人数
movie_author = [] # 导演
data = {}
# bs4 解析 html
soup = BeautifulSoup(html, html.parser)
for li in soup.find(ol, attrs={class:
grid_view}).find_all(li):
精彩文档
实用标准文案
title.append(li.find(span, class_=title).text)
#rating_num.append(li.find(div,
class_=star).find(span, class_=rating_num).text)
range_num.append(li.find(div,
class_=pic).find(em).text)
#spans = li.find(div,
class_=star).find_all(span)
#for x in range(len(spans)):
if x = 2:
pass
else:
#
rating_people_num.append(spans[x].string[-len(spans[x].stri
ng):-3])
str
您可能关注的文档
最近下载
- 2025-2030智慧农业物联网设备普及率与精准种植决策系统及商业模式创新报告.docx
- 2025秋小学生数学报配套试卷(六年级上册)A3版.docx VIP
- DCT图像压缩方法.ppt VIP
- 客户服务沟通技巧培训.pptx
- HG-T 21608-2012液体装卸臂工程技术要求(完整版).doc VIP
- 建设煤矸石制人工生态土项目可行性研究报告写作模板-拿地备案.doc
- 中国古代神话故事合集52043.doc VIP
- Unit4AmazingPlantsandAnimals基础梳理(听写)八年级英语人教版上册.docx VIP
- 基于单片机的吸尘器运动控制系统设计.pdf
- 职业病体检培训.pptx
原创力文档


文档评论(0)