- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谷歌邮件搜索机发说明
谷歌邮件搜索机开发说明
软件要求用C类语言开发,软件界面上能够自定义采集线程,界面简单,程序高效稳定。
能够自定义断网联网时间并自动识别重复IP,能够在不断断网联网的情况下,正常保存采集到的数据。具体说明如下,希望有实力的参与哦,本人很多项目寻求合作。
原理:软件依据我软件的配置来用谷歌搜索,提取搜索结果页面里的EMAIL地址
『对任何网页,代码底部20行内的邮件地址,不予采集,那些都是站长邮件地址』
1:软件界面功能说明
1:导入关键词配置选项
这个关键词也就是软件要用搜索引擎检索的关键词
要导入的关键词为TXT格式 1行为一个关键词,导入后,软件界面上自动以小列表形式显示出来。
关键词范例,请看附件 关键词.txt
注:导入的关键词文本统一为标准的UTF8编码
2:附加关键词配置选项
也就是依据页面里的
相关关键词配置选项一共有3个选项
『为空』 『email』 『自定义内容』
其中3里的自定义内容框里 要求可以支持特殊字符 也就是支持UTF8
『不然很多外文输入不进去』
相关关键词配置选项 默认勾选的按钮为 2 email
3:线程控制设置
也就是我要求的控制软件采集速度的一个选项了 要求这个是拖拉类型的
默认线程为1 ,可拖拉到无限 『实际我基本用多线程软件 最高也就开150吧』
这里不多介绍
4:采集区域配置
也就是依据 下面这个图拉
默认选项为:任何国家和地址
这个采集区域配置选项 最好可以做成分区形式的比如
A-D E-H 这样的 下面是国家选择 。谷歌这个搜索网页区域选项
是拖拉性的 100多个国家 选择有点麻烦
5:日期配置
一共有4个选项 默认是 任何时间啦
其余的就是 过去一天内 过去一周内。。。。。。
6:是否域采集
这个是什么意思呢?你看 比如你用美女关键词去搜索,因为我们软件固定配置的是每页返回100个结果项, 所以搜索后 你会得到10个结果页
每个结果页里有100个网页地址,而这100个网页地址就等于是100个域名
比如 其中一个为 /pas/2007/pms/ntdx/
那么它的域名就是
如果勾选了域采集 那么软件就批量SITE这些域名 去采集邮箱
比如软件界面,我配置的 附加关键词配置为默认的2 email
那么软件就批量执行这些搜索
email site:域名A
email site:域名 B
如果附加关键词配置为 联系
那么软件就执行的为
联系 site:域名A
。。。。。。。
注意:当配置开启域采集的话,那么软件是先按照配置采集关键词结果页里的邮件地址
之后开始依据附加关键词配置 来执行域采集
域采集执行的时候 关键词就跟 导入的关键词无关了
而是只跟 附加关键词配置选项有关
7:定时断网联网配置 重点
因为软件是多线程采集,当过多的查询后,谷歌也会封IP的 百度一样
软件能让我自定义选择自动断网联网时间间隔 也做成拖拉形式的吧
默认值为10,之后可以随意拖拉到任意数值, 单位按分钟
『当然 是得有选项 让我确定是否启用定时断网联网配置哦, 默认不选择』
还有一个另外选项就是:是否识别重复IP 按钮
如果不选择是否识别重复IP,只选择断网联网, 那么软件就按照我设置的时间
定时重复拨号
如果勾选了那么就如下所示
比如软件刚开始运行的IP 是 8
之后按照我设定的时间开始断网 断网后重新自动拨号 获得的IP 为8
之后时间到了 获得的IP为 8
那么软件识别到跟之前的IP重复了 就再继续重新拨号 直到不重复为止
7:就是软件上显示运行状态啦
显示运行了多少分钟,采集了多少个关键词,访问了多少个页面,采集到多少邮箱
2:软件采集原理说明
比如软件上的其余选项我都是默认的 不设置
那么实际搜索的选项就如下图
请注意看:无论软件怎么配置
这个搜索参数里 有两个参数是永远不要变化
也就是A:搜索结果项为100项结果
B:字词位置的选项为 网页的正文
『这些参数 你自己选择不同的配置搜索下 就会发现返回的搜索页面的URL里的参数了』
OK 我来举例一下 例如我在软件导入的关键词为 健康
选择的相关关键词配置选项为 email
其余配置选项为空 那么实际的搜索就是
一次类推
下面我说下软件的采集过程,比如我导入的关键词为
健康
幸福
那么软件就依据界面上我配置的开始采集
先采集健康 返回的URL地址为
/search?as_q=健康hl=zh-CNnewwindow=1num=100btnG=Google+搜索as_epq=as_oq=emailas_eq=lr=c
您可能关注的文档
最近下载
- 施工升降机危险源辨识及风险评价表.docx VIP
- 功放机故障维修的技巧与秘诀.pdf VIP
- 培养高中生数学核心素养的思维可视化教学研究——以高一函数教学为例.docx VIP
- 第三单元行进之歌+——婚礼进行曲+课件2025-2026学年人音版(简谱)(2024)初中音乐七年级上册.pptx VIP
- 158页-【低空经济】低空经济产业园配套设施规划.pdf
- 刑侦内勤个人先进事迹经验材料 公安局刑警三队民警XX.doc VIP
- 第五单元(知识清单)四年级语文上册单元速记巧练(统编版) .pdf VIP
- 机械基础 第二章 螺旋传动.ppt VIP
- 社区服务站财务管理制度.docx VIP
- 拆违整治服务项目方案投标文件(技术方案).doc
原创力文档


文档评论(0)