python爬取当当网项目.docx

下载文档

12
0
约1.6千字
约 6页
2023-03-24 发布于湖北
举报
版权申诉
保障服务

python爬取当当网项目.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2019-2020 学年第一学期期末考试试题试题名称：Python 语言试卷类型：A 卷使用专业：计算机科学与技术使用年级：2018 级本科题号题号一总分得分得分评卷人（共得分评卷人《Python 语言》课程作品简介姓名：班级：学号：成绩：《Python 语言》《Python 语言》A 卷第 PAGE 1页一、网络爬虫的总体设计思路：该实验是基于当当网的python图书信息进行爬取和应用的。总体设计思路如下：在本爬虫程序中共有三个模块： 1、爬虫调度端：启动爬虫，停止爬虫，监视爬虫的运行情况 2、爬虫模块：（1）.URL管理器：对需要爬取的URL和已经爬取过的URL进行管理，可以从URL管理器中提取一个待爬取的URL，传递给网页的下载器。（2）.网页下载器：网页下载器将URL指定的网页下载下来，存储成一个字符串，传递给网页解析器。（3）网页解析器：解析传递的字符串。解析器不仅可以解析出需要爬取的数据，还可以解析出每个网页指向其他网页的URL，这些URL被解析出来会补充进URL管理器。 3、数据输出模块：存储爬取的数据。二、网络爬虫程序详细设计过程1.环境设计：环境变量IDE：Spyder3 需要引用的包： import requests:用来抓取网页的HTML源代码import csv :将数据写入到csv文件中 import lxml:将html字符串进行解析，供xpath语法进行数据提取. Import PIL:处理图像的波段数. import numpy：进行数值计算扩展，用来存储和处理大型矩阵 Import jieba:python中的一个分词库，在本次实验中，主要应用此库的精确模式。 Import wordcloud:根据文本中词语出现的频率等参数绘制词云，还可设定词云的字体,颜色,形状等。云的字体,颜色,形状等。在本实验中，由于大部分包都在wheel中，因此，此次试验进行了jieba、lxml、 PIL、image、wordcloud库的安装。其安装语句为：pip install XX. 代码分析及实现的功能为了得到python图书信息，导入相应的库文件。创建csv文件，写入表格的表头信息构造所有的URL链接。设置URL管理器，并解析出其他网页的URL，添加进URL管理器添加请求头。获取网站后，下载网站，利用lxml 库的 xpath 进行分析解析HTML 网站中传输数据。爬虫工作完成后，下一步是保存有用的URL 链接，分析跟链接有关的URL 送回 URL 管理器，从而使整个爬虫过程循环进行，爬取所有符合的信息。将爬取到的数据存储到Excel 表格中。（1）导入相应的库设置 x 轴以及 y 轴的标签值。在数值上显示具体数值，ha 水平对齐，va 垂直对齐，颜色为红色，透明度 alpha 为 0.8. 通过数据比较获得销量是前 20 的图书信息。 4.（1）导入相应的库三、代码实现结果： python 图书信息统计表后续见文件：图书信息柱状图：词云形状：五、总结感想本次课程设计，我第一次从网络上爬取实际数据并进行操作。之前一直是本次课程设计，我第一次从网络上爬取实际数据并进行操作。之前一直是在软件中进行编写程序，没有什么难度，但是通过这次的项目，我找到了编程的乐趣！在项目开始之前，我在网上找了大量的资料和爬取网页的实例，以便对我的项目有很好的思路。我发现从网页抓取数据内容大致分为3大步：模拟浏览器访问，获取HTML源代码；通过正则匹配，获取指定标签中的内容；将获取到的内容写到文件中.在爬取阶段，需要使用各种库。在实现我的项目过程中，我也遇到了很多的困难，在同学的帮助下，一点一点地完善我的项目。我会继续努力学习Python！

您可能关注的文档

文档评论（0）

mph + 关注: 官方认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体上海谭台科技有限公司

IP属地湖北

统一社会信用代码/组织机构代码: 91310115MA7CY11Y3K

1亿VIP精品文档

更多 >

python爬取当当网项目.docx