- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2019-2020 学年第一学期期末考试试题试题名称:Python 语言 试卷类型:A 卷
使用专业:计算机科学与技术 使用年级:2018 级本科
题号
题号
一
总分
得分
得 分评卷人(共
得 分评卷人
《Python 语言》课程作品简介
姓 名:
班 级:
学 号:
成 绩:
《Python 语言》
《Python 语言》A 卷
第 PAGE 1页
一、网络爬虫的总体设计思路:
该实验是基于当当网的python图书信息进行爬取和应用的。总体设计思路如下:
在本爬虫程序中共有三个模块:
1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况
2、爬虫模块:
(1).URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中提取一个待爬取的URL,传递给网页的下载器。
(2).网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器。
(3)网页解析器:解析传递的字符串。解析器不仅可以解析出需要爬取的数据,还可以解析出每个网页指向其他网页的URL,这些URL被解析出来会补充进URL管理器。
3、数据输出模块:存储爬取的数据。二、网络爬虫程序详细设计过程1.环境设计:
环境变量IDE:Spyder3
需要引用的包:
import requests:用来抓取网页的HTML源代码import csv :将数据写入到csv文件中
import lxml:将html字符串进行解析,供xpath语法进行数据提取. Import PIL:处理图像的波段数.
import numpy:进行数值计算扩展,用来存储和处理大型矩阵
Import jieba:python中的一个分词库,在本次实验中,主要应用此库的精确模式。
Import wordcloud:根据文本中词语出现的频率等参数绘制词云, 还可设定词
云的字体,颜色,形状等。
云的字体,颜色,形状等。
在本实验中,由于大部分包都在wheel中,因此,此次试验进行了jieba、lxml、
PIL、image、wordcloud库的安装。其安装语句为:pip install XX.
代码分析及实现的功能
为了得到python图书信息,导入相应的库文件。
创建csv文件,写入表格的表头信息
构造所有的URL链接。设置URL管理器,并解析出其他网页的URL,添加进URL管理器
添加请求头。获取网站后,下载网站,利用lxml 库的 xpath 进行分析解析HTML 网站中传输数据。爬虫工作完成后,下一步是保存有用的URL 链接,分析跟链接有关的URL 送回 URL 管理器,从而使整个爬虫过程循环进行,爬取所有符合的信息。
将爬取到的数据存储到Excel 表格中。
(1)导入相应的库
设置 x 轴以及 y 轴的标签值。在数值上显示具体数值,ha 水平对齐,va 垂直对齐, 颜色为红色,透明度 alpha 为 0.8.
通过数据比较获得销量是前 20 的图书信息。
4.(1)导入相应的库
三、代码实现结果:
python 图书信息统计表后续见文件:
图书信息柱状图:
词云形状:
五、总结感想
本次课程设计,我第一次从网络上爬取实际数据并进行操作。之前一直是
本次课程设计,我第一次从网络上爬取实际数据并进行操作。之前一直是
在软件中进行编写程序,没有什么难度,但是通过这次的项目,我找到了编程的乐趣!在项目开始之前,我在网上找了大量的资料和爬取网页的实例,以便对我的项目有很好的思路。我发现从网页抓取数据内容大致分为3大步:模拟浏览器访问,获取HTML源代码;通过正则匹配,获取指定标签中的内容;将获取到的内容写到文件中.在爬取阶段,需要使用各种库。在实现我的项目过程中, 我也遇到了很多的困难,在同学的帮助下,一点一点地完善我的项目。我会继续努力学习Python!
原创力文档


文档评论(0)