5完整版本.2-1数据采集的工具和方法.pptxVIP

  • 3
  • 0
  • 约1.53千字
  • 约 14页
  • 2024-02-22 发布于北京
  • 举报

5完整版本.2-1数据采集的工具和方法.pptx

5.2.1数据采集的方法和工具学习目标明确数据应用项目的需求能制定数据采集的需求清单知道数据采集的方法和工具1.系统日志采集法——临时文件1.概念记录系统硬件、软件和系统问题的信息文件控制面板?系统安全?管理工具?查看事件日志2.内容2.网络数据采集法1.概念通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息在网址后加robots.txt,可以查看本网页是否能被爬取例如:/robots.txt/robots.txt2.网络数据采集法2.网络爬虫的基本工作流程如下:解析器控制器存储器根据网页代码的标签名和属性,提取数据2.网络数据采集法2.网络爬虫的基本工作流程如下:1.首先选取一部分精心挑选的种子URL;2.将这些URL放入待抓取URL队列;3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。2.网络数据采集法2.网络爬虫,例如:百度的爬虫Baiduspider360的爬虫叫360Spider其他网站关键字主要内容网址时间检索索引保存用户百度spider索引数据库2.网络数据采集法3.HtmlHtml:超文本标志语言的缩写,网页代码的基本组成部分Html元素:决定网页的内容和结构,包含标签、注释等标签:网页代码最基本的组成单位属性格式:属性名称=属性值标签名属性1属性2…标签内容/标签名结束标签开始标签2.网络数据采集法属性格式:属性名称=属性值3.Html标签标签名属性1属性2…标签内容/标签名浏览器网页显示的内容结束标签开始标签p我有一双蓝色的眼睛/pp我有一双fontcolor=bluesize=7蓝色/font的眼睛/p2.网络数据采集法3.Html标签查看网页代码例如:鼠标指向需爬虫数据右击?审查元素2.网络数据采集法属性格式:属性名称=属性值3.Html标签标签名属性1属性2…标签内容/标签名浏览器网页显示的内容结束标签开始标签span标签名class属性2.网络数据采集法模块名4.扩展库函数名导入模块importmodule导入指定模块的指定函数frommoduleimportname导入模块(函数)并新名字替代importmoduleas新名字(首字母)语句语句作用importnumpyasnpimportmatplotlib.pyplotaspltfrompylabimport*引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法2.网络数据采集法5.网络爬虫的具体案例#爬取title并赋值给all_title#爬取title并赋值给all_titleall_title=soup.find_all(span,class_=title)forjinall_title: soup_title=bs4.BeautifulSoup(str(j),html.parser,) title.append(soup_title.span.string)#添加存储爬取的title数据3.其他数据采集法1.概念传感器等特定接口采集数据传输到数据库管理系统

文档评论(0)

1亿VIP精品文档

相关文档