- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你制作百度站内搜索sitemap数据文件
随着百度站内搜索的全面开放,本人也打算尝尝鲜,因为号称可以提交数据给百度,从而增加收录量 。然而在提交数据的时候发现,所用到的sitemap与以往的有所不同,在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了,今天把制作的具体流程给大家分享一下,希望对有需要的朋友能有所帮助!一.结合百度站内搜索的数据格式说明,这里列出一个单个URL的样式给大家看一下?xml version=1.0 encoding=utf-8?urlset???url? ? loc/daichanbaozhunbei/114.html/loc? ? lastmod2014-09-12/lastmod? ? changefreqalways/changefreq? ? priority0.7/priority? ? data? ?? ?display? ?? ???title孕妇待产包准备攻略,方便又齐全/title? ?? ???tag分娩待产包/tag? ?? ???pubTime2014-09-12T17:55:46/pubTime? ?? ???breadCrumb title=首页 url=/? ?? ???breadCrumb title=待产包准备 url=/category/daichanbaozhunbei/? ?? ?/display? ? /data??/url???url??...略...??/url?/urlset我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式,写在一个个的url标签中,具体每一项的意思就不多解释了,都很简单,实在不行可以去百度站长平台了解一下,说的很清楚。如果网站内页成千上网,那么一项一项来手工写肯定是不现实的。了解这个XML文件的格式,剩下的就开始行动了,这里借肋于火车头采集器来完成页面的采集工作。二.开始用火车头采集器来进行采集采集的原理是先把站内的所有网址都抓取出来,然后根据自己网站模板的特点,来把每个网址所要采的页面标题title,关键字tag,发布时间pubTime,面包屑导航breadCrumb 等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样,不用抓取,也无法从页面中抓取,设为为相同数值即可),给下一步做准备。OK,这里就以待产包专卖网这个网站为例说一下怎么用火车头采集器抓取,这个网站用的是wordpress模板做的,不同网站大同小异,但原理都是一样的。因为这不是一篇火车头采集器的使用教程,为避免篇幅过长,只做简单说明,重要的地方会做详细解释,如果想了解更可以去查看软件的使用帮助。1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务,添加起始网址,这里填写html版网站地图的URL:/sitemap.html。这是我用wordpress插件生成的网站地图,本站所有的URL都在这个源文件里面,所以就从网站地图做起始网址。?PS:如果没有网站地图的,就要从网站导航的分类目录开始一级一级向内抓取,火车头采集器支持无限多级页面的网址抓取,所以只要规则写的对,就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察/sitemap.html源文件,发现所有文章的超链接都在ul标签中,所以 添加多级网址采集规则 如下设置?c.填写完以后,点击 “测试网址采集”发现本站所有的URL都给采集到了?2.采集页面内容信息网址有了,就要编写采集内容规则了。因为页面文章的模板都是一样的,所以只要拿一个页面来进行测试就行,这里随便找一个页面/daichanbaozhunbei/114.html作为典型页面,告诉大家如何采集。我们需要的是页面标题,关键字,文章发布时间以及面包屑导航这些有用信息。a.标题title的采集打开源文件,搜索标题,查看有什么规律。本例如下?也就是说分娩待产包清单这个网站所有文章的标题都是这样的规律,于是标题的提取方法就有了,如下所示?b.发布时间pubTime的采集同样根据源文件中发布日期:2014-09-12 17:55:46所处的位置查看规律,并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00,注意中间有个T。这里我用了替换功能。很重要哦!?c.标签tag的采集这个页面有三个标签?在源文件找到这段代码所处位置?发现规律做如下设置?d.为避免篇幅其它项目的的采集就不在举例了,道理都是一样的。”数据处理“选项里有很多设置,可以替换字符串,截取字符串,过滤HTML等,可以省去很多
文档评论(0)