python爬取当当网项目.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2019-2020 学年第一学期期末考试试题试题名称:Python 语言 试卷类型:A 卷 使用专业:计算机科学与技术 使用年级:2018 级本科 题号 题号 一 总分 得分 得 分评卷人(共 得 分评卷人 《Python 语言》课程作品简介 姓 名: 班 级: 学 号: 成 绩: 《Python 语言》 《Python 语言》A 卷 第 PAGE 1页 一、网络爬虫的总体设计思路: 该实验是基于当当网的python图书信息进行爬取和应用的。总体设计思路如下: 在本爬虫程序中共有三个模块: 1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况 2、爬虫模块: (1).URL管理器:对需要爬取的URL和已经爬取过的URL进行管理,可以从URL管理器中提取一个待爬取的URL,传递给网页的下载器。 (2).网页下载器:网页下载器将URL指定的网页下载下来,存储成一个字符串,传递给网页解析器。 (3)网页解析器:解析传递的字符串。解析器不仅可以解析出需要爬取的数据,还可以解析出每个网页指向其他网页的URL,这些URL被解析出来会补充进URL管理器。 3、数据输出模块:存储爬取的数据。二、网络爬虫程序详细设计过程1.环境设计: 环境变量IDE:Spyder3 需要引用的包: import requests:用来抓取网页的HTML源代码import csv :将数据写入到csv文件中 import lxml:将html字符串进行解析,供xpath语法进行数据提取. Import PIL:处理图像的波段数. import numpy:进行数值计算扩展,用来存储和处理大型矩阵 Import jieba:python中的一个分词库,在本次实验中,主要应用此库的精确模式。 Import wordcloud:根据文本中词语出现的频率等参数绘制词云, 还可设定词 云的字体,颜色,形状等。 云的字体,颜色,形状等。 在本实验中,由于大部分包都在wheel中,因此,此次试验进行了jieba、lxml、 PIL、image、wordcloud库的安装。其安装语句为:pip install XX. 代码分析及实现的功能 为了得到python图书信息,导入相应的库文件。 创建csv文件,写入表格的表头信息 构造所有的URL链接。设置URL管理器,并解析出其他网页的URL,添加进URL管理器 添加请求头。获取网站后,下载网站,利用lxml 库的 xpath 进行分析解析HTML 网站中传输数据。爬虫工作完成后,下一步是保存有用的URL 链接,分析跟链接有关的URL 送回 URL 管理器,从而使整个爬虫过程循环进行,爬取所有符合的信息。 将爬取到的数据存储到Excel 表格中。 (1)导入相应的库 设置 x 轴以及 y 轴的标签值。在数值上显示具体数值,ha 水平对齐,va 垂直对齐, 颜色为红色,透明度 alpha 为 0.8. 通过数据比较获得销量是前 20 的图书信息。 4.(1)导入相应的库 三、代码实现结果: python 图书信息统计表后续见文件: 图书信息柱状图: 词云形状: 五、总结感想 本次课程设计,我第一次从网络上爬取实际数据并进行操作。之前一直是 本次课程设计,我第一次从网络上爬取实际数据并进行操作。之前一直是 在软件中进行编写程序,没有什么难度,但是通过这次的项目,我找到了编程的乐趣!在项目开始之前,我在网上找了大量的资料和爬取网页的实例,以便对我的项目有很好的思路。我发现从网页抓取数据内容大致分为3大步:模拟浏览器访问,获取HTML源代码;通过正则匹配,获取指定标签中的内容;将获取到的内容写到文件中.在爬取阶段,需要使用各种库。在实现我的项目过程中, 我也遇到了很多的困难,在同学的帮助下,一点一点地完善我的项目。我会继续努力学习Python!

文档评论(0)

mph + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体上海谭台科技有限公司
IP属地湖北
统一社会信用代码/组织机构代码
91310115MA7CY11Y3K

1亿VIP精品文档

相关文档