关键词采集方法.docxVIP

下载本文档

9
0
约3.01千字
约 22页
2018-10-16 发布于湖北
举报
版权申诉

关键词采集方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关键词采集方法

八爪鱼·云采集网络爬虫软件八爪鱼·云采集网络爬虫软件关键词采集方法本文将介绍如何利用【词库】批量挖掘并采集长尾词的方法，对SEOSEM站长来说非常实用。本来还将介绍一款免费好用的数据采集工具【八爪鱼数据采集】，让站长采集关键词的工作事半功倍。长尾词对于站长来说是提高网站流量的核心之技能之一，是不容忽视的一项技巧，在搜索引擎营销中对关键词策略的制定是非常重要的，这些长尾关键词能为网站贡献很大的一部分流量，并且带来的顾客转化率也很不错。下面就以【词库】为例，教各位站长如何是用【八爪鱼数据采集器】批量采集关键词。采集网站： HYPERLINK / / 本文就以一组（100个B2B行业有指数的关键词）为例，来采集关于这一组关键词的所有相关长尾关键词。采集的内容包括：搜索后的长尾关键词，360指数，该长尾关键词搜索量以及搜索量的第一位网站（页面）这四个有效字段。使用功能点：循环文本输入 /tutorialdetail-1/wbxh_7.html Xpath HYPERLINK /tutorialdetail-1/xpathrm1.html xpath入门教程1 HYPERLINK /tutorialdetail-1/xpathrm1.html xpath入门2 HYPERLINK /tutorialdetail-1/xdxpath-7.html 相对XPATH教程-7.0版数字翻页 HYPERLINK /tutorialdetail-1/szfy_7.html /tutorialdetail-1/szfy_7.html 步骤1：创建词库网采集任务进入主界面，选择“自定义采集” 2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址” ? 步骤2：创建循环输入文本打开网页之后，点开右上角的流程，然后从左侧拖一个循环进来点击循环步骤，在它的高级选项那里选择文本列表，再点开下面的A，把复制好的关键词全部粘贴进去，注意换行，再点击确定保存。创建好循环文本输入后，点击页面上的搜索框，创建输入文本的步骤，注意，不需要输入任何文本即可，若是自动生成的是在循环外面，拖入进去，再勾选循环即可。右键选择页面上的搜索按钮，设置好点击元素，这样，循环文本输入就设置好了，流程下方就是搜索出来的长尾关键词。步骤3：创建数字翻页由于该搜索结果页面没有下一页按钮，只有数字页数，所以我们需要用到xpath的一些相关知识，来设置特殊的数字翻页。首先去火狐浏览器里把该网页打开并搜索相应关键词后，打开浏览器右上角的firebug工具--小瓢虫（不懂的同学可以去官网教程看一下相应的xpath教程）翻到页面下方，找到数字位置的源码，可以看到当前页面的数字跟其他数字，在源码里节点的属性class是有所不同的收益我们首先定位到该页面的数字位置，手写xpath：//div[@id=page]/a[contains(@class,current)] 再利用固定函数following-sibling来定位到该节点后的第一个同类节点，注意，该函数后面接::是固定格式，a[1]是指该节点后的第一个同类节点可以查看翻页后还是正常定位到下一页的数字上，说明该xpath没有问题再回到八爪鱼，在左侧流程页面拖一个循环进来，高级选项里选择单个元素，并把xpath放入进去，点确定保存好再从左侧拖一个点击元素进来，并在高级选项里勾选好循环，特殊数字翻页循环就创建好了步骤4：创建循环列表我们安装常规方法创建循环列表，发现，由于搜索结果后的表格中出现了这个无用的一整行信息。于是在八爪鱼里面是无法正常的创建好循环列表的，因为这个无用的信息导致八爪鱼自动生成的列表会定位不准所以我们还是得用到xpath的知识，去火狐浏览器里面手动创建一个循环列表的xpath。首先定位到第一行第一列的源码位置再找到每一行的源码位置，发现他们都是tbody父节点下相同的tr标签再观察每一行真正的tr节点里都有一个共同的属性“id”，并且id属性都有一个共同的tr值，所以我们以此为共同点，手写该xpath：.//tbody/tr[contains(@id,tr)]，来定位到所有的tr节点，并把所有无用的tr给过滤掉，这样，循环列表的xpath就创建好了 ? ? 再从左侧拖一个循环进去，循环方式选择不固定元素，把该xpath放入八爪鱼里，并以第一个循环为例，设置相应的采集字段（由于部分字段源码里是没有的，所以采集不到），步骤5：启动采集点击保存任务后，运行采集，以本地采集为例采集完成后，会跳出提示，选择“导出数据”。选择“合适的导出方式”，将采集好的数据导出。本文来自于：/tutorialdetail-1/cikucrawl.html 相关采集教