网站大量收购闲置独家精品文档,联系QQ:2885784924

前沿笔记.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
前沿笔记

前沿技术知识点: 1、信息采集 什么叫信息采集? 答:将别的网站中的信息通过PHP代码来获取到我们自己的网站中, 并且存到文件或数据库中的方式. 为什么要使用信息采集? 答: 1、可以减少人工的操作 2、减少企业的成本 3、提高工作效率 信息采集的原理? 答:通过技术获取到要采集的页面数据,经过分析HTML代码规则,再写出相应 的正则表达式来匹配我们所需要的数据,那么只要能获取到页面数据 的方式都可以称之为信息采集的方法. 信息采集的核心技术: 1、就是获取文件内容的方法 file_get_contents(); 读取函数 snoopy() 封装类 方法: fetch($URI) url参数就是要获取页面的地址 fetchlinks($URI) url参数就是要获取页面的地址 fetchform(); 主要获取的是form表单 fetchtext(); 主要获取的是文本 可以提交表单数据,可以上传文件 submit($URI, $formvars=, $formfiles=) 设置表单的类型 set_submit_multipart() 设置COOKIE,// $snoopy-cookies[PHPSD] = i4jkao0veifottjqr0bkuc7fj5; //伪装sessionid? 属性: results 获取到的结果 伪造来源页面 $snoopy-referer = http://localhost/caiji/1.html; 伪造IP $snoopy-rawheaders[X_FORWARDED_FOR] = 44; 伪造浏览器 $snoopy-agent =Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729); curl 系列函数 注意:使用CURL时必须首先开启CURL动态加载模块 只要是snoopy里能做到的curl都能做到 伪造浏览器 表单提交 文件上传 伪造COOKIE 伪造IP 伪造来源页面 curl使用一个步骤: 第一步: 开启 curl_init(); // — 初始化一个cURL会话 第二步: 设置 curl_setopt($re,CURLOPT_URL,http://localhost/caiji/curl_test.php); curl_setopt($re,CURLOPT_RETURNTRANSFER,1); $post_data = array(sss=11,bb=22); curl_setopt($re, CURLOPT_POST, 1); // 把post的变量加上 curl_setopt($re, CURLOPT_POSTFIELDS, $post_data); 第三步: 执行 $result = curl_exec($re); 第四步: 关闭 curl_close($re); // 关闭会话 fsockopen 系列函数 理解:知道fsockopen也能实现信息采 网络之间连接就是能过SOCKET套接字来实现的 fopen() 打开文件或者 URL file() 把整个文件读入一个数组中 2、分析HTML代码 3、正则表达式 什么叫正则表达式? 用于描述字符串规则的一种语法 正则表达式的组成? 原子字符 键盘能看到的字符 \d \w \W 元字符 在正则表达式中有特殊含义的字符 比如: * ? . + {} [] 模

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档