Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容.pdfVIP

Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Python3::爬爬取取新新浪浪、、⽹⽹易易、、今今⽇⽇头头条条、、UC四四⼤⼤⽹⽹站站新新闻闻标标题题及及

内内容容

Python3::爬爬取取新新浪浪、、⽹⽹易易、、今今⽇⽇头头条条、、UC四四⼤⼤⽹⽹站站新新闻闻标标题题及及

内内容容

以爬取相应⽹站的社会新闻内容为例:

⼀⼀、、新新浪浪::

新浪⽹的新闻⽐好爬取,我是⽤BeautifulSoup直接解析的,它并没有使⽤JS异步加载,直接爬取就⾏了。

新浪新闻:http://news./society/

Date

Author:lim

Description:获取新浪新闻

importrequests

frombs4importBeautifulSoup

fromurllibimportrequest

importsys

importre

importos

defgetNews(title,url,m):

Hostreferer={

User-Agent:Moilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36

}

req=request.Request(url)

response=request.urlopen(req)

#过滤⾮utf-8的⽹页新闻

response=response.read().decode(utf-8,ignore)

soup=BeautifulSoup(response,lxml)

tag=soup.find(div,class_=article)

iftag==None:

return0

#获取⽂章发布时间

fb_date=soup.find(div,date-source).span.string

#获取发布⽹站名称

fb_www=soup.find(div,date-source).a.string

#获取⽂章内容

rep=pile([\s+\.\!\/_,$%^*(+\\]+|[+?、~*()]+)

title=rep.sub(,title)

title=title.replace(:,:)

filename=sys.path[0]+/news/+title+.txt

withopen(filename,w,encoding=utf8)asfile_object:

file_object.write(fb_date++fb_www)

file_object.write(\n)

file_object.write(⽹址:+url)

file_object.write(\n)

file_object.write(title)

file_object.write(tag.get_text())

i=0

forimageintag.find_all(div,img_wrapper):

title_img=title+str(i)

#保存图⽚

#判断⽬录是否存在

if(os.path.exists(sys.path[0]+/news/+title)):

pass

else:

#不存在,则新建⽬录

os.mkdir(sys.path[0]+/new

您可能关注的文档

文档评论(0)

A~下一站守候 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档