《Python程序设计基础》 课件第8章 实战项目之爬虫和分词·.pptx

《Python程序设计基础》 课件第8章 实战项目之爬虫和分词·.pptx

  1. 1、本文档共95页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第八章实战项目之爬虫和分词项目需求爬虫正则表达式分词

思维导图

学习目标掌握掌握掌握了解爬虫的概念和基本工作原理12掌握爬虫常用模块和函数的使用了解分词的概念和常用的分词库?4基本掌握正则表达的概念和语法?3

技能目标掌握掌握掌握学会爬虫的基本编程应用12学会分词的基本编程应用进一步提升Python综合编程应用能力3

思政目标1.学以致用,行以致远。要把研究和解决现实问题作为学习的根本出发点。2.“师夷长技以制夷”,从中国制造到中国创造是中国IT产业的必由之路。3.通过“核高基—从‘中国制造’到‘中国创造’的战略决策”的学习,了解拥有属于我国的真正安全、可靠、可控的基础软件是一代代IT人接续奋斗的目标。

目录爬虫8.28.1项目需求8.3正则表达式8.4分词

知识架构8.1项目需求1热词分析平台2数据库设计3网页内容分析4手机版网页新闻的获取5学生实践练习

8.1项目需求1热词分析平台热词分析平台通过分析某段时间内最热门的关键字,并通过曲线图和柱状图的形式进行展示,它包含以下三个部分:(1)新闻的抓取和保存。例如,从163新闻网页中抓取每天最新的新闻,抓取地址为http://3,抓取后将新闻内容保存到MySQL数据库中。(2)分词处理。在控制台中输入要分析的时间段,在数据库中查询出该时间段内的新闻记录,使用结巴分词库对新闻内容进行关键字的分词处理。(3)数据整理、分析和清洗及图表展示。将分析好的关键字使用Pandas库存入DataFrame对象中。对关键字出现的次数进行排序,使用Matplotlib库将关键字和它出现的次数使用曲线图和柱状图表现出来。

8.1项目需求1热词分析平台首先,在控制台中输入要分析的开始时间和结束时间,程序会根据输入的时间,在数据库中查询出结果,并开始分词处理,如图8.1所示。

8.1项目需求1热词分析平台然后,将统计出来的前20个关键字用图表展示出来,处理完成后,折线图和柱状图如图8.2所示。

8.1项目需求2数据库设计热点关注项目使用MySQL数据库保存数据。在该项目中,分析后的关键字在内存中存储即可,因此只需要创建一张新闻news表。新闻表的表结构见表8.1。

8.1项目需求3网页内容分析想要抓取到数据,就必须知道有哪些途径获取数据源。目前数据源获取有3种途径:(1)PC端网站。内容比较繁杂,所以分析最复杂,作为最后考虑的途径。(2)针对移动设备设计的网站。大部分新闻平台都提供了针对移动设备设计的网站,如网易新闻除了PC端提供的新闻网址(/),还提供了针对移动设备的新闻网址(http://3)。内容相对简单,分析比较容易。(3)移动App。优先考虑的途径,一般使用Charles工具进行分析,有些App会加密,此时可以进行反编译分析,逆推出加密方法。

8.1项目需求3网页内容分析通过什么办法可以爬取到网页中的所有新闻数据呢?一般情况,可以使用以下3种方式来分析:(1)分析网页源代码。(2)查看网页的访问地址。(3)借助浏览器提供的开发者工具来分析。当需要获取有用数据的请求地址时,在Chrome浏览器中按Ctrl+Shift+I组合键,即可弹出浏览器的开发者工具。单击开发者工具的“Network”菜单,查看每次访问的所有网络请求,如图所示。

8.1项目需求4手机版网页新闻的获取!本小节将以手机版搜狐新闻(/ch/8)的爬取为例进行讲解。每次将网页拖到底部,网站都会自动加载更多的新闻。但访问的地址没有改变,因此我们可以肯定搜狐新闻网站是通过异步请求加载新闻数据的。对于实现了自动加载功能的手机端新闻网站,基本使用异步请

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档