- 0
- 0
- 约2.41千字
- 约 23页
- 2026-03-05 发布于福建
- 举报
项目二:爬取豆瓣电影网站
目录01任务1使用正则表达式02任务2:使用Xpath爬取豆瓣电影排行榜03任务3:使用BeautifulSoup爬取豆瓣电影TOP250
任务1:使用正则表达式
任务描述初次爬取的网页数据大多是以HTML源代码形式返回到我们的爬虫程序中的,当我们需要从爬取到的源代码中获取到具体所需数据时,就需要用到相应的解析工具了,正则表达式就是众多解析工具中的一个。正则表达式在引入re模块后以字符串前加r的形式存在,通过正则表达式的特殊字符就可以从杂乱的数据中获取到所需的数据。
任务目标了解正则表达式的基本格式0201了解正则表达式的基本概念使用re输出文章中
您可能关注的文档
- 《手工与制作》项目实践任务书 - 衍纸:衍纸基础卷、花卉衍纸书签.docx
- 《手工与制作》项目实践任务书 - 衍纸造型:蝴蝶、菊花.docx
- 《手工与制作》项目实践任务书 - 衍纸造型:小猪、青蛙.docx
- 《手工与制作》项目实践任务书 - 折纸:双正方形基础折、集中一角基础折-蜻蜓、蝴蝶.docx
- 《手工与制作》项目实践任务书 - 褶皱纸创意手工:彼岸花、马蹄莲.docx
- 《手工与制作》项目实践任务书 - 褶皱纸创意手工:玫瑰花、风信子.docx
- 《手工与制作》项目实践任务书 - 褶皱纸创意手工:鸢尾花、郁金香.docx
- 《数据采集技术》课件——项目二 任务2 使用Xpath爬取豆瓣电影排行榜.pptx
- 《数据采集技术》课件——项目二 任务3 使用BeautifulSoup获取豆瓣电影 TOP250.pptx
- 《数据采集技术》课件——项目三 任务2 爬取薪资信息并存储到MySQL.pptx
- 2025年版汽车趋势报告 The 2025 EPA Automotive Trends Report.docx
- 2026年边缘计算开源平台EdgeX Foundry入门与二次开发.docx
- 2026年超声内镜放大内镜早癌诊断AI辅助识别系统临床评价.docx
- 2026年报废汽车回收与再制造逆向物流体系.docx
- 2026年产品碳足迹核算方法学:从摇篮到大门与从摇篮到坟墓.docx
- 2026年城乡要素平等交换双向流动政策创新试点申报材料.docx
- 2026年超导半导体接口电路架构与电平转换驱动器设计.docx
- 2026年财政贴息不再以再贷款支持为前提后的风险防范与合规要点.docx
- 2026年不动产信托登记试点政策对遗嘱信托支持.docx
- 2026年城乡有机废弃物协同处理技术方案.docx
原创力文档

文档评论(0)