谷歌邮件搜索机发说明.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谷歌邮件搜索机发说明

谷歌邮件搜索机开发说明 软件要求用C类语言开发,软件界面上能够自定义采集线程,界面简单,程序高效稳定。 能够自定义断网联网时间并自动识别重复IP,能够在不断断网联网的情况下,正常保存采集到的数据。具体说明如下,希望有实力的参与哦,本人很多项目寻求合作。 原理:软件依据我软件的配置来用谷歌搜索,提取搜索结果页面里的EMAIL地址 『对任何网页,代码底部20行内的邮件地址,不予采集,那些都是站长邮件地址』 1:软件界面功能说明 1:导入关键词配置选项 这个关键词也就是软件要用搜索引擎检索的关键词 要导入的关键词为TXT格式 1行为一个关键词,导入后,软件界面上自动以小列表形式显示出来。 关键词范例,请看附件 关键词.txt 注:导入的关键词文本统一为标准的UTF8编码 2:附加关键词配置选项 也就是依据页面里的 相关关键词配置选项一共有3个选项 『为空』 『email』 『自定义内容』 其中3里的自定义内容框里 要求可以支持特殊字符 也就是支持UTF8 『不然很多外文输入不进去』 相关关键词配置选项 默认勾选的按钮为 2 email 3:线程控制设置 也就是我要求的控制软件采集速度的一个选项了 要求这个是拖拉类型的 默认线程为1 ,可拖拉到无限 『实际我基本用多线程软件 最高也就开150吧』 这里不多介绍 4:采集区域配置 也就是依据 下面这个图拉 默认选项为:任何国家和地址 这个采集区域配置选项 最好可以做成分区形式的比如 A-D E-H 这样的 下面是国家选择 。谷歌这个搜索网页区域选项 是拖拉性的 100多个国家 选择有点麻烦 5:日期配置 一共有4个选项 默认是 任何时间啦 其余的就是 过去一天内 过去一周内。。。。。。 6:是否域采集 这个是什么意思呢?你看 比如你用美女关键词去搜索,因为我们软件固定配置的是每页返回100个结果项, 所以搜索后 你会得到10个结果页 每个结果页里有100个网页地址,而这100个网页地址就等于是100个域名 比如 其中一个为 /pas/2007/pms/ntdx/ 那么它的域名就是 如果勾选了域采集 那么软件就批量SITE这些域名 去采集邮箱 比如软件界面,我配置的 附加关键词配置为默认的2 email 那么软件就批量执行这些搜索 email site:域名A email site:域名 B 如果附加关键词配置为 联系 那么软件就执行的为 联系 site:域名A 。。。。。。。 注意:当配置开启域采集的话,那么软件是先按照配置采集关键词结果页里的邮件地址 之后开始依据附加关键词配置 来执行域采集 域采集执行的时候 关键词就跟 导入的关键词无关了 而是只跟 附加关键词配置选项有关 7:定时断网联网配置 重点 因为软件是多线程采集,当过多的查询后,谷歌也会封IP的 百度一样 软件能让我自定义选择自动断网联网时间间隔 也做成拖拉形式的吧 默认值为10,之后可以随意拖拉到任意数值, 单位按分钟 『当然 是得有选项 让我确定是否启用定时断网联网配置哦, 默认不选择』 还有一个另外选项就是:是否识别重复IP 按钮 如果不选择是否识别重复IP,只选择断网联网, 那么软件就按照我设置的时间 定时重复拨号 如果勾选了那么就如下所示 比如软件刚开始运行的IP 是 8 之后按照我设定的时间开始断网 断网后重新自动拨号 获得的IP 为8 之后时间到了 获得的IP为 8 那么软件识别到跟之前的IP重复了 就再继续重新拨号 直到不重复为止 7:就是软件上显示运行状态啦 显示运行了多少分钟,采集了多少个关键词,访问了多少个页面,采集到多少邮箱 2:软件采集原理说明 比如软件上的其余选项我都是默认的 不设置 那么实际搜索的选项就如下图 请注意看:无论软件怎么配置 这个搜索参数里 有两个参数是永远不要变化 也就是A:搜索结果项为100项结果 B:字词位置的选项为 网页的正文 『这些参数 你自己选择不同的配置搜索下 就会发现返回的搜索页面的URL里的参数了』 OK 我来举例一下 例如我在软件导入的关键词为 健康 选择的相关关键词配置选项为 email 其余配置选项为空 那么实际的搜索就是 一次类推 下面我说下软件的采集过程,比如我导入的关键词为 健康 幸福 那么软件就依据界面上我配置的开始采集 先采集健康 返回的URL地址为 /search?as_q=健康hl=zh-CNnewwindow=1num=100btnG=Google+搜索as_epq=as_oq=emailas_eq=lr=c

文档评论(0)

godok99 + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档