- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
#*
python 中如何提取网页正文啊 谢谢
import urllib.request ? url=/ ? response=urllib.request.urlopen(url) ? page=response.read() ?
python提取网页中的文本
import os,sys,datetime???
import httplib,urllib, re???
from sgmllib import SGMLParser???
??
import types???
??
class Html2txt(SGMLParser):???
????def reset(self):???
????????self.text = ??
????????self.inbody = True??
???????? SGMLParser.reset(self)???
????def handle_data(self,text):???
????????if self.inbody:???
????????????self.text += text???
??
????def start_head(self,text):???
????????self.inbody = False??
????def end_head(self):???
????????self.inbody = True??
??
??
if __name__ == __main__:???
???? parser = Html2txt()???
???? parser.feed(urllib.urlopen().read())???
???? parser.close()???
????print parser.text.strip()??
python 下载网页
import httplib??
conn=httplib.HTTPConnection( HYPERLINK /)
conn.request(GET,/index.html)
r1=conn.getresponse()
print r1.status,r1.reason
data=r1.read()
print data
conn.close
用python下载网页,超级简单!
from urllib import urlopenwebdata = urlopen().read()print webdata
深入python里面有
python?下载网页内容,用python的pycurl模块实现
用python 下载网页内容还是很不错的,之前是使用urllib模块实验的,但听说有pycurl这个模块,而且比urllib好,所以尝试下,废话不说,以下是代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import StringIO
import pycurl
def writefile(fstr,xfilename):? f=open(xfilename,w)? f.write(fstr)? f.close
html = StringIO.StringIO()
c = pycurl.Curl()
myurl= HYPERLINK / \n _blank
?
c.setopt(pycurl.URL, myurl)
?
#写的回调
c.setopt(pycurl.WRITEFUNCTION, html.write)
?
c.setopt(pycurl.FOLLOWLOCATION, 1)
?
#最大重定向次数,可以预防重定向陷阱
c.setopt(pycurl.MAXREDIRS, 5)
?
#连接超时设置
c.setopt(pycurl.CONNECTTIMEOUT, 60)
c.setopt(pycurl.TIMEOUT, 300)
?
#模拟浏览器
c.setopt(pycurl.USERAGENT, Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322))
?
?
?
#访问,阻塞到访问结束
c.perform()
?
#打印出 200(HTTP状态码,可以不需要)
print c.getinfo(pycurl.HTTP_CODE)
?
#输出网页的内容
print html.getvalue()
#保存成down.txt文件
writefile(html.getvalue(),down.txt)
HYPERLINK /archives/category/python/ \n _bla
您可能关注的文档
- labw.indows使用基础教学课件.doc
- LaTe!x快速学习入门.doc
- LEC法危险~源辨识方法和标准.doc
- LED#路灯安装施工组织计划.doc
- LED#显示屏入门知识完整教学课件.doc
- led显示屏制-作安装施工计划组织.doc
- li'nu某基础教学课件试卷~及内容答案~.doc
- linu某专业-考试.题~库(300道~).doc
- KEIL.MDK教学课件汇总.doc
- LNG行业-相关~入门知识汇总(原创文档~).doc
- 2026-2031中国防伪市场发展前景预测研究报告.docx
- 2026年中国粮食水分测定仪行业市场发展现状及投资前景预测报告.docx
- 2026年中国农牧业物联网行业分析报告-产业供需现状与未来商机预测.docx
- 2026-2031中国工程监理行业深度调查及投资机会研究报告.docx
- 2026年中国螺纹钢线材行业市场深度调研及发展前景与投资战略研究报告.docx
- 2026年中国利是封现状研究及发展趋势预测.docx
- 2026年中国农牧业物联网市场调研及发展趋势预测报告.docx
- 2026年中国农业物联网行业分析报告-行业运营态势与未来规划分析.docx
- 2026-2031中国运动鞋市场现状研究及未来前景趋势预测报告.docx
- 2026-2031中国钴市场深度调查及十五五未来趋势研究报告.docx
最近下载
- 分子技术的临床应用题库及答案-2025年华医网继续教育.docx VIP
- 采矿工程毕业设计(论文)-平顶山矿1.2Mta新井设计(全套图纸).doc VIP
- Zebra斑马ZQ630 用户手册.pdf
- 2025年高中语文复习讲义选择性必修下册(一) 单篇梳理2 项脊轩志.docx VIP
- 风电机组叶片防雷相似性对比研究.pptx VIP
- 2026年中国长城资产管理股份有限公司校园招聘笔试模拟试题及答案解析.docx VIP
- 国开2024年秋《经济法学》计分作业1-4答案形考任务.docx
- 2014年q12 impact提升计划管理表(结构).xls VIP
- 党政办公室工作人员业务培训教学演示课件.ppt VIP
- 山梨酸钾MSDS化学物质技术说明书.pdf VIP
原创力文档


文档评论(0)