27-王博元.数据据可视化.docxVIP

  • 6
  • 0
  • 约8.3千字
  • 约 20页
  • 2021-01-15 发布于广东
  • 举报
PAGE 13 电子与信息工程学院 课程设计报告 (2020-2021学年第一学期) 课 程: 《数据可视化技术》 题 目: 爬取网贷数据 专业班级: 大数据181班 学 号: 20180804050127 姓 名: 王博元 指导教师: 张海林 完成周数: 17-18周 2020年 12月6日 目录 一、目的3 二、系统需求及基本功能3 1、系统需求3 2、基本功能3 三、总体设计方案3 1、总体设计3 2、流程图3 四、详细设计4 五、项目源程序代码4 1、爬数据4 2、数据可视化6 六、运行测试结果截图11 七、总结与收获15 一、目的 将大量的、多维度的、不完全的、随机的数据,通过可视化提取出隐含在其中的、未知的、潜在有用的信息和知识; 快速有效呈现数据的重要特征; 揭示数据的客观规律; 引导用户从可视化结果分析和推理出有效信息,提升信息认知的效率; 二、系统需求及基本功能 1、系统需求 本课设需要对大量的二手房数据通过spider进行爬取,用MySQL编译器进行数据的存储,用pyecharts详细的分析数据,再将数据可视化,最后制作一个简单的网页。 2、基本功能 使用者可以直观清晰的了解网贷信息买卖的情况,对当网贷买卖作者、查看买数、时间,买完评论数所处具体地点有一个基本的认识。 三、总体设计方案 1、总体设计 寻找网页、创建爬虫项目获数据、创建数据库保存数据、分析数据、数据可视化、DW设计界面。 2、流程图 四、详细设计 新建目标(Project):新建一个新的爬虫项目 明确目标(Items):明确你想要抓取的目标 制作爬虫(Spider):制作爬虫开始爬取网页 存储内容(Pipeline):设计管道存储将爬取的数据存入MySQL内容 制作网页图:连接数据库,画html数据分析图 DW创建网页:使用网页代码编辑器Adobe Dreamweaver创建简单的网页 五、项目源程序代码 1、创建爬虫项目获取数据 Maoyan: import scrapy from scrapy import Request from scrapy.spiders import Spider from ..items import MaoyanItem class SinaspiderSpider(Spider): name = my #start_urls = [/roll/index.d.html?cid=57919page=1]#设置要爬取的站点 #设置初始化地址 current_page=1 def start_requests(self): #设置爬取函数 url=/news/hangye/index.php?page=1 yield Request(url,callback=self.parse) def parse(self, response): newstitle=response.xpath(//div[@class=deanpiclicr]/h2/a/text()).extract() newsurl=response.xpath(//div[@class=deanpiclicr]/h2/a/@href).extract() for title,nurl in zip(newstitle,newsurl) : print(title) nurl=/+nurl print(nurl) yield scrapy.Request(nurl,callback=self.parsenews)#回调 #分页函数 self.current_page += 1 if self.current_page = 3000: surl = /news/hangye/index.php?page=%d % (self.current_page) yield Request(surl,callback=self.parse) pass def parsenews(self, response): item = MaoyanItem() title0=response.xpath(//div[@cl

文档评论(0)

1亿VIP精品文档

相关文档