- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《PHP采集程序思路大全
PHP采集程序思路大全
思路:
采集[url=javascript:;]程序[/url]的思路很简单大体可以分为以下几个步骤:
1.获取远程文件源代码(file_get_contents或用fopen).
?? 2.分析代码得到自己想要的内容(这里用正规匹配,一般是得到分页)。
3.跟根得到的内容进行下载入库等操作。
在这里第二步有可能要重复的操作好几次,比如说要先分析一下分页地址,在分析一下内页的内容才能取得我们想要的东西。
代码:
记的以前发部过部分的代码今天我在这里在简单的发部一下
复制[url=javascript:;]PHP[/url]内容到剪贴板 PHP代码:
@$nl=file_get_contents($rs[url]);//抓取远程内容
preg_match_all(/var url = \gameswf\/(.*?)\.swf\;/is,$nl,$connect);//进行正规匹配取得自己要的内容
[url=javascript:;]mysql[/url]_query(insert ......插入[url=javascript:;]数据库[/url]部分);
上面的代码就是所有采集要用到的代码了,当然大家也可以用fope来作,我个人喜欢用file_get_contents。
下面在共享一下我的下载图片flash到本地的办法,太简单了两行代码 复制PHP内容到剪贴板 PHP代码:
if(@copy($url,$newurl)){
echo ok;
}
在论坛上以前还发过一个[url=javascript:;]图片[/url]下载[url=javascript:;]函数[/url]这会也放上来给大家 复制PHP内容到剪贴板 PHP代码:
/*本存图片函数*/
function getimg($url,$filename){
???????? /*判断图片的url是否为空,如果为空停止函数*/
???????? if($url==){
???????????????? return false;
???????? }
???????? /*取得图片的扩展名,存入变量$ext中*/
???????? $ext=strrchr($url,.);
???????? /*判断是否是合法的图片文件*/
???? if($ext!=.gif $ext!=.jpg){
???????????????? return false;
???????? }
???????? /*读取图片*/
???????? $img=file_get_contents($url);
???????? /*打开指定的文件*/
???????? $fp=@fopen($filename.$ext,a);
???????? /*写入图片到指点的文件*/
???????? fwrite($fp,$img);
???????? /*关闭文件*/
???????? fclose($fp);
???????? /*返回图片的新文件名*/
???????? return $filename.$ext;
}
共享一下个人的采集心德:
1.不采那些作防盗链了的站,其实可以作假来路但是这样的站采集成本太高
2.采集尽量快的站,最好在本地进行采集
3.采集时有很多时候可以先把一部分数据存入数据库,等以后进行下一步的处理。
4.采集的时候一定要作好出错处理,我一般都是如果采集三次没有成功就跳过。以前经常就因为一条内容不能采就卡在那里一直的采。
5.入库前一定要作好判断,检查内容的合法,过滤不必要的字符串。
思路一:
700)this.width=700;if(this.offsetHeight700)this.height=700;
思路二:
700)this.width=700;if(this.offsetHeight700)this.height=700;
思路三:
700)this.width=700;if(this.offsetHeight700)this.height=700;
您可能关注的文档
最近下载
- 基于VISSIM的城市道路交叉口自适应信号控制仿真技术研究-交通运输规划与管理专业论文.docx VIP
- 专题05 名著导读【备考2025】2024年中考语文真题分类汇编 全国版(含答案).docx VIP
- (完整版)交管12123学法减分考试题库及答案.docx
- 群建阀门公司安全生产事故应急预案.doc VIP
- GA_T 1343-2016防暴升降式阻车路障.pdf
- 教育数字化转型背景下高校数字素养教育实践模式创新路径.docx VIP
- 200个句子涵盖了高中英语4500词汇[宝典].doc
- 体育馆会堂网架提升专项施工方案.doc
- 小学英语“教—学—评”一体化的优势及运用对策.pptx VIP
- 2020年2月四川省喜德县医院系统(卫生类)招聘考试《医学基础知识》试卷及答案.pdf
文档评论(0)