- 6
- 0
- 约8.3千字
- 约 20页
- 2021-01-15 发布于广东
- 举报
PAGE 13
电子与信息工程学院
课程设计报告
(2020-2021学年第一学期)
课 程: 《数据可视化技术》
题 目: 爬取网贷数据
专业班级: 大数据181班
学 号: 20180804050127
姓 名: 王博元
指导教师: 张海林
完成周数: 17-18周
2020年 12月6日
目录
一、目的3
二、系统需求及基本功能3
1、系统需求3
2、基本功能3
三、总体设计方案3
1、总体设计3
2、流程图3
四、详细设计4
五、项目源程序代码4
1、爬数据4
2、数据可视化6
六、运行测试结果截图11
七、总结与收获15
一、目的
将大量的、多维度的、不完全的、随机的数据,通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识;
快速有效呈现数据的重要特征;
揭示数据的客观规律;
引导用户从可视化结果分析和推理出有效信息,提升信息认知的效率;
二、系统需求及基本功能
1、系统需求
本课设需要对大量的二手房数据通过spider进行爬取,用MySQL编译器进行数据的存储,用pyecharts详细的分析数据,再将数据可视化,最后制作一个简单的网页。
2、基本功能
使用者可以直观清晰的了解网贷信息买卖的情况,对当网贷买卖作者、查看买数、时间,买完评论数所处具体地点有一个基本的认识。
三、总体设计方案
1、总体设计
寻找网页、创建爬虫项目获数据、创建数据库保存数据、分析数据、数据可视化、DW设计界面。
2、流程图
四、详细设计
新建目标(Project):新建一个新的爬虫项目
明确目标(Items):明确你想要抓取的目标
制作爬虫(Spider):制作爬虫开始爬取网页
存储内容(Pipeline):设计管道存储将爬取的数据存入MySQL内容
制作网页图:连接数据库,画html数据分析图
DW创建网页:使用网页代码编辑器Adobe Dreamweaver创建简单的网页
五、项目源程序代码
1、创建爬虫项目获取数据
Maoyan:
import scrapy
from scrapy import Request
from scrapy.spiders import Spider
from ..items import MaoyanItem
class SinaspiderSpider(Spider):
name = my
#start_urls = [/roll/index.d.html?cid=57919page=1]#设置要爬取的站点
#设置初始化地址
current_page=1
def start_requests(self): #设置爬取函数
url=/news/hangye/index.php?page=1
yield Request(url,callback=self.parse)
def parse(self, response):
newstitle=response.xpath(//div[@class=deanpiclicr]/h2/a/text()).extract()
newsurl=response.xpath(//div[@class=deanpiclicr]/h2/a/@href).extract()
for title,nurl in zip(newstitle,newsurl) :
print(title)
nurl=/+nurl
print(nurl)
yield scrapy.Request(nurl,callback=self.parsenews)#回调
#分页函数
self.current_page += 1
if self.current_page = 3000:
surl = /news/hangye/index.php?page=%d % (self.current_page)
yield Request(surl,callback=self.parse)
pass
def parsenews(self, response):
item = MaoyanItem()
title0=response.xpath(//div[@cl
原创力文档

文档评论(0)