27-王博元.数据据可视化.docxVIP

下载本文档

6
0
约8.3千字
约 20页
2021-01-15 发布于广东
举报

27-王博元.数据据可视化.docx

PAGE 13 电子与信息工程学院课程设计报告（2020-2021学年第一学期）课程：《数据可视化技术》题目：爬取网贷数据专业班级：大数据181班学号： 20180804050127 姓名：王博元指导教师：张海林完成周数： 17-18周 2020年 12月6日目录一、目的3 二、系统需求及基本功能3 1、系统需求3 2、基本功能3 三、总体设计方案3 1、总体设计3 2、流程图3 四、详细设计4 五、项目源程序代码4 1、爬数据4 2、数据可视化6 六、运行测试结果截图11 七、总结与收获15 一、目的将大量的、多维度的、不完全的、随机的数据，通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识；快速有效呈现数据的重要特征；揭示数据的客观规律；引导用户从可视化结果分析和推理出有效信息，提升信息认知的效率；二、系统需求及基本功能 1、系统需求本课设需要对大量的二手房数据通过spider进行爬取，用MySQL编译器进行数据的存储，用pyecharts详细的分析数据，再将数据可视化，最后制作一个简单的网页。 2、基本功能使用者可以直观清晰的了解网贷信息买卖的情况，对当网贷买卖作者、查看买数、时间，买完评论数所处具体地点有一个基本的认识。三、总体设计方案 1、总体设计寻找网页、创建爬虫项目获数据、创建数据库保存数据、分析数据、数据可视化、DW设计界面。 2、流程图四、详细设计新建目标（Project）：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeline）：设计管道存储将爬取的数据存入MySQL内容制作网页图：连接数据库，画html数据分析图 DW创建网页：使用网页代码编辑器Adobe Dreamweaver创建简单的网页五、项目源程序代码 1、创建爬虫项目获取数据 Maoyan： import scrapy from scrapy import Request from scrapy.spiders import Spider from ..items import MaoyanItem class SinaspiderSpider(Spider): name = my #start_urls = [/roll/index.d.html?cid=57919page=1]#设置要爬取的站点 #设置初始化地址 current_page=1 def start_requests(self): #设置爬取函数 url=/news/hangye/index.php?page=1 yield Request(url,callback=self.parse) def parse(self, response): newstitle=response.xpath(//div[@class=deanpiclicr]/h2/a/text()).extract() newsurl=response.xpath(//div[@class=deanpiclicr]/h2/a/@href).extract() for title,nurl in zip(newstitle,newsurl) : print(title) nurl=/+nurl print(nurl) yield scrapy.Request(nurl,callback=self.parsenews)#回调 #分页函数 self.current_page += 1 if self.current_page = 3000: surl = /news/hangye/index.php?page=%d % (self.current_page) yield Request(surl,callback=self.parse) pass def parsenews(self, response): item = MaoyanItem() title0=response.xpath(//div[@cl

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

27-王博元.数据据可视化.docxVIP