- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
前沿笔记
前沿技术知识点:
1、信息采集
什么叫信息采集?
答:将别的网站中的信息通过PHP代码来获取到我们自己的网站中,
并且存到文件或数据库中的方式.
为什么要使用信息采集?
答:
1、可以减少人工的操作
2、减少企业的成本
3、提高工作效率
信息采集的原理?
答:通过技术获取到要采集的页面数据,经过分析HTML代码规则,再写出相应
的正则表达式来匹配我们所需要的数据,那么只要能获取到页面数据
的方式都可以称之为信息采集的方法.
信息采集的核心技术:
1、就是获取文件内容的方法
file_get_contents(); 读取函数
snoopy() 封装类
方法:
fetch($URI) url参数就是要获取页面的地址
fetchlinks($URI) url参数就是要获取页面的地址
fetchform(); 主要获取的是form表单
fetchtext(); 主要获取的是文本
可以提交表单数据,可以上传文件
submit($URI, $formvars=, $formfiles=)
设置表单的类型
set_submit_multipart()
设置COOKIE,//
$snoopy-cookies[PHPSD] = i4jkao0veifottjqr0bkuc7fj5; //伪装sessionid?
属性:
results 获取到的结果
伪造来源页面
$snoopy-referer = http://localhost/caiji/1.html;
伪造IP
$snoopy-rawheaders[X_FORWARDED_FOR] = 44;
伪造浏览器
$snoopy-agent =Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729);
curl 系列函数
注意:使用CURL时必须首先开启CURL动态加载模块
只要是snoopy里能做到的curl都能做到
伪造浏览器
表单提交
文件上传
伪造COOKIE
伪造IP
伪造来源页面
curl使用一个步骤:
第一步: 开启
curl_init(); // — 初始化一个cURL会话
第二步: 设置
curl_setopt($re,CURLOPT_URL,http://localhost/caiji/curl_test.php);
curl_setopt($re,CURLOPT_RETURNTRANSFER,1);
$post_data = array(sss=11,bb=22);
curl_setopt($re, CURLOPT_POST, 1);
// 把post的变量加上
curl_setopt($re, CURLOPT_POSTFIELDS, $post_data);
第三步: 执行
$result = curl_exec($re);
第四步: 关闭
curl_close($re); // 关闭会话
fsockopen 系列函数
理解:知道fsockopen也能实现信息采
网络之间连接就是能过SOCKET套接字来实现的
fopen() 打开文件或者 URL
file() 把整个文件读入一个数组中
2、分析HTML代码
3、正则表达式
什么叫正则表达式?
用于描述字符串规则的一种语法
正则表达式的组成?
原子字符
键盘能看到的字符
\d \w \W
元字符
在正则表达式中有特殊含义的字符
比如:
* ? . + {} []
模
您可能关注的文档
- 初中考考点全覆盖[].doc
- 初中英语知能提升作业:单元评价检测UnitHowmucharethesesocks?(鲁教版上).doc
- 初_元次方程的补充解法——“十字相乘法.doc
- 初前模块联系.doc
- 初中超声检测培训复习题汇编.doc
- 初中英语阅读理解篇.doc
- 初中适应性考试科学试卷.doc
- 初中英语中考语法知识重点详解.doc
- 初中英语首字母题篇_有答案.doc
- 初中英语辅导课程j教案.doc
- 2025年人力资源管理师四级《理论知识》试题及答案考卷67 .pdf
- 2025年-2025年基金从业资格证之基金法律法规职业道德与业务规范真题练习完整版.pdf
- 2025学生会舍务部部长竞选稿(真题8篇) .pdf
- 2025年中考新闻类题型解析 .pdf
- 2025年“安全教育周”活动启动仪式上的讲话稿(五篇) .pdf
- 2025年任职前廉政谈话制度(3篇) .pdf
- 2025师德述职报告14篇 .pdf
- 2025年低碳演讲稿范文4篇_图文 .pdf
- 2025年-2025年上海市保密知识考试教育考试(含答案) .pdf
- 2025年以案促改个人剖析材料及整改措施以案促改个人表态发言材料三篇汇.pdf
最近下载
- 2024年民主生活会“带头增强党性、严守纪律、砥砺作风”方面问题起草指南、实例和素材.docx VIP
- 新型储能产品营销方案.pdf VIP
- 2025蛇年元旦蛇年新年晚会PPT模板.pptx VIP
- 安徽大学《高级语言程序设计》2023-2024学年第1学期期中试卷及答案.pdf
- 北师大版七年级数学上册各章测试卷(共7套,含答案) .pdf VIP
- 2024年黑龙江省龙东地区中考一模语文试题[含答案].pdf
- 2022年外研版八下Module6Hobbies测试题(附答案).doc
- 新表个人所得税经营所得纳税申报表(A表).doc VIP
- 年级组长年度工作总结报告开头.docx VIP
- CoDeSys_2.3_PLC_用户编程手册.pdf
文档评论(0)