网站生成静态页面，及网站数据采集的攻、防原理和策略.docVIP

下载本文档

0
0
约5.54千字
约 7页
2017-08-24 发布于广东
举报
版权申诉

网站生成静态页面，及网站数据采集的攻、防原理和策略.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网站生成静态页面，及网站数据采集的攻、防原理和策略.doc

　　网站生成静态页面，及网站数据采集的攻、防原理和策略教育资源库关于本文：本着互联网共享主义精神，特写此文献给建站新手，授人以鱼，不如授人以渔，本文所讲的只是方法和原理，希望大家看完此文，能够从中得到些帮助和启发。本文从一个ASP程序员的角度用大量实例祥细介绍了动态网站如何生成静态页面原理，又从一个采集程序开发者的角度去祥细介绍了网站数据采集的原理及功防策略。关于网站生成静态页面，为了让本文读者容易理解，文内列举了目前常用的多种生成静态页面的方法，其中用了很多的实例代码进行说明。关于网站数据采集攻防，本身是一个采集程序的开发者，同时也收集研究了多种采集程序，列举了目前国内比较流行的几种防采集策略，并对每种策略作了简单客观的分析评价，希望能给广大站长们提供一些帮助。此章节也把原创的防采集方法奉献给大家，目地是为了让大家了解，防采集，不防搜索引擎，是可行的，有效的。声明：希望各位朋友转载时，不要把原有版权去掉，谢谢合作。由于本人写作水平有限，写的不好的地方，还请大家多多包涵，如要批评或意见，请加我。目前很多人都开始注重动态页面生成HTML页了，但选择哪种生成HTML的方法和防采集却不防搜索引擎的问题却经常困扰大家。解决此问题则是本文产生的原因。首先祥细说一下常用的几种生成HTML的方法：生成HTML方法主要步骤只有两个：一、获取要生成的html文件的内容二、将获取的html文件内容保存为html文件我在这里主要说明的只是第一步：如何获取要生成的html文件的内容：目前常用获取html文件的内容的方法有几下几种： 1、 str=lt;html标记gt;内容lt;/html标记gt; str=strlt;html标记gt;内容lt;/html标记gt;lt;html标记gt;数据库读取内容lt;/html标记gt; 这种方法与是在脚本内写要生成的html内容，不太方便预览生成页面的内容，无法可视化布局页面，更改html模板时会更加复杂。用这种方法的人很多，但我感觉这种方法是最不方便的。 2、制作单独的HTML模板页，动态的内容用特定的字符作为标记(如：有人用$title$标记为网页标题)，用ADODB.Stream或者Scripting.FileSystemObject将其模板内容载入，然后再用替换方法把原先定好的标记替换为动态内容(如：Replace(载入的模板内容,$title$,rs(title ) ) )。 3、用XMLHTTP或serverXMLHTTP获取动态页所显示的HTML内容，我常用的生成html文件的实例： p;Request.ServerVariables(SERVER_NAME)/contact.asp?id=rs(id)‘指定动态页地址 body=getHTTPPage(或者Scripting.FileSystemObject保存成html文件。第二步是生成文件的方法： ASP里常用的有用ADODB.Stream生成文件和Scripting.FileSystemObject生成文件两种 1、 Scripting.FileSystemObject生成文件方法： Set fso = CreateObject(Scripting.FileSystemObject) File=Server.MapPath(要生成文件路径和文件名.htm) Set txt=fso.OpenTextFile(File,8,True) data1=文件内容用L防采集却不防搜索引擎蜘蛛的一些经验：我开发过几个采集程序，也研究过很多采集程序代码，所以对采集程序的原理还算是稍微有些了解。先说一下采集原理：采集程序的主要步骤如下：一、获取被采集的页面的内容二、从获取代码中提取所有用的数据一、获取被采集的页面的内容我目前所掌握的ASP常用获取被采集的页面的内容方法： 1、用serverXMLHTTP组件获取数据 Function GetBody( ObjXMLHTTP Set ObjXMLHTTP=Server.CreateObject(MSXML2.serverXMLHTTP) 请求文件,以异步形式 1234下一页这篇文章来自..，。ObjXMLHTTP.Open GET, objstream set objstream = Server.CreateObject(adodb.stream) objstream.Type = 1 objstream.Mode =3 objstream.Open objstream.ID函数截取需要的数据 Function body(id(p;start“.+?”over“正则表达式 Set Matches =xiaoqi.Execute(p;Match.V