网页元素批量采集软件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页元素批量采集软件 界面说明 有网址管理,元素管理,图片管理,进度管理,设置界面. 第1点 网址管理 字段:标题,网址,所属主域名,上次采集时间,采集次数,更新频率,源代码,框架型代码,采集状态,添加时间,采集类型,是否采集(是,否,待确定),网页预览图. 编辑/添加/删除某一条记录,查看该页所有元素(链接到元素管理列表),全选批量删除. 删除网址时,同时删除该所属的元素管理和图片管理中内容. 每条网址采集时,自动将新的网址又加到网址管理中. 所属主域名=该网址域名中去掉第一个”.”前的内容后的域名. 网址管理在列表时,可直接按记录条进行列表,旁边也有一个按树支型列表,点一下即自动按树支型进行排列. 按记录中的最新添加时间和有记录的网址,先列出主域名的文件夹,再列出所属于该主域名的所有网页,www开头的列第一个. 框架型代码=先删除过滤google,baidu广告script代码,可在百度上搜索下的,再将网页中的所有超过4个汉字长度的汉字串及不限长度的英文或数字串替换为”文字”,有几个文字的,其他就用空格填充,比如“网站首页123”,替换后是”文字 ”,计算length,再替换成相应等长的空格,是网页上显示的文字,不是html源代码上的文字. 采集类型有重复检查型采集,全新采集. 重复检查型采集,即检查该网页的框架型代码,是否与其他的网址有重复的,相似度是否在90%以上,如果是的,自动将是否采集,设置为等确定.默认为是. 网址管理的上方为网址列表,点一下可在下面看到详细停息和网页预览图及操作说明. 第2点 元素管理 字段:所属网址编号,元素内容,图片源链接地址,元素类型(图片/文字/flash) 元素座标值 包括功能:删除功能,查看原所属网址 元素管理上方为元素管理的列表,点击一下后可查看元素的详细信息和操作. 第3点 图片管理 字段:图片地址,图片源地址,alt文字,链接地址,上行座标文字,下行座标文字,上方标题文字,附近文字,采集时间,图片大小,图片色码,图片主色调,图片上文字,关键字,所属网址,上传状态(已上传/上传中/未上传),备注 编辑,添加(进批量上传功能,即导入整个文件夹的图片,批量一次性添加的),删除 *链接地址=a href=“链接地址”img src=“图片地址”/a 也就是这张图片前面最近的套在图片外层的一个文字链接. 座标文字=该图片原来在网页中的座标,它的垂直方向的上方或下方的最近的一行文字. 上方标题文字=该图片的上方代码中字号最大的一段文字串. 附近文字=该图片在元素管理中 ID 前后的文字编号ID. 图片色码=这张图片转化为二进制后的图片码. 图片主色调=将图片平均成50个小块,取每个小块的中心点RGB色值,如255,0,0.再平均算,越靠近哪个,主色调即为哪个.有红、橙、黄、绿、青、蓝、紫. 图片上文字=用网上的图片识文字软件进行批量识别,再保存到该字段中. 先将图片地址字段填上去,其他字段再慢慢完善. 上传状态指上传到远程FTP中的进度状态,如无法连接FTP时,自动重连10次,如还是无法连接,发送邮箱提示一下的. 图片地址=主域名+该FTP中的相对路径. 第4点 进度管理 字段:网址编号,采集进度条,图片数量,完成状态. 包括功能:置顶/提前/删除/暂停某一条记录 在整个软件的下方有一个采集日志进度的同步显示,旁边有一个暂停. 电脑重启后,重新启动软件并自动开始采集,记录采集到哪了. 开机自启动. 第5点 设置界面 FTP远程服务器设置(一共有3个): 第1个FTP: FTP地址/FTP帐号/FTP密码/端口/路径/主域名[选择该FTP] 第2个FTP: FTP地址/FTP帐号/FTP密码/端口/路径/主域名[选择该FTP] 第3个FTP: FTP地址/FTP帐号/FTP密码/端口/路径/主域名[选择该FTP] 接收邮箱:[ ] FTP文件保存时,保存为: 主路径/主域名文件夹/相对路径. 该元素原来在网站中的路径如何,就保存为怎样的. 第6点 图片管理那在每次上传时,自动检查是否有相同的图片,如果有的,自动将该图片地址替换为原来有的记录的地址,不用重复采集. 同时是否共用那=true,已共用的图片,在网址管理那删除网址时,不要删除该图片,同时移到该新的文件夹目录下. * * L/O/G/O * * *

文档评论(0)

tangzhaoxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档