获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具.docVIP

获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具

获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具 获取全文 Feed 以及从无 Feed 输出的页面上自行制作 Feed 的几种方法和工具 ============================ full-text-rss的安装(本地安装) 1. 准备运行环境 xammp 中的 apache 服务器自带 php。在 htdocs 目录中新建一个目录,如full-text-rss-2.7,[下载地址](/p/full-text-rss/source/tree/master/),将 full-text-rss 压缩包中的文件解压缩到该目录下,就可以在浏览器中打开了。 默认安装的 xammp PHP 环境未打开 Tidy 和 cURL 两个模块,可以到xammp/php目录下的php.ini中搜索 extension=php_tidy.dll 以及 extension=php_curl.dll 两行,默认前面有分号注释掉了,将分号去掉,重新启动apache服务器,这两个扩展即启用。 2. 通过 site_config 下的配置文件对抓取的网站进行匹配,选取有用内容,删除无用内容 * full-text-rss的自动全文抓取是通过程序分析博客全文网页,找到其中的全文内容。不过自己建站时,可以通过其提供的site_config功能更精确的指定全文位置,提高准确率。 * 以新浪的匹配文件为例,文件名为 ..txt,放在 site_config\custom 目录下。可以匹配 ,如需匹配 或 ,则文件名应为。 * 文件内容如下 body: //div[@id = sina_keyword_ad_area2] strip: //div[@id=sina_keyword_ad_area2]//span[contains(@class, MASS)] prune: no tidy: no * 第一行表示正文的内容,div是块名称,前面的//表示可以html文件中任意层次的块。 * 第二行用于去除html中的干扰文字,前面一半是引用正文块,后面的//span是说在上层块下任意层次的一个 span。而且其中用了一个 xpath 的文本选择语句,意思是要求匹配的span块,其中的 class 属性的内容要包含 MASS 。 * 后面两个参数, prune 和 tidy,在进行人工配置时要通过设为 no 禁用。有问题,通过人工分析解决,不要用电脑的自动分析。等测试成功正式使用时可以去掉。 3. 其他注意事项 * 要看修改site_config文件的效果,直接刷新feed输出页面,不要回到起始页面再重新生成feed,这样反而会让浏览器调用之前缓存的页面,看不到修改后的效果。 * 不要启用full-text-rss的缓存,不过默认就是禁用的。 4. 在支持 PHP 的免费主机上建立full-text-rss服务 * 过程和使用本地服务器差不多,服务器应建在国外,否则有些国外的博客会取不到全文页面。 * 为了减少免费服务器的负荷,新建立的 RSS 抓取模板可以先在本地测试后再上传到服务器端。 从无RSS的网站生成RSS源(方法一、借助 Feed43 和 Yahoo Pipes 等第三方工具) 1. 使用Feed43生成网页的RSS 配置选项较多,有一定的学习曲线。 2. 使用 Yahoo Pipes 对 Feed43 生成的 RSS 进行优化 Feed43生成的GUID不是指向URL,而是随机生成的一串数值,有时候网页更新后,相同item的GUID会发生变化。反映到 Google Reader 中就会有某篇文章重复出现的问题。这时可以将其导入 Yahoo Pipe 中,用 Fetch Feed 和 Create RSS 两个工具将 GUID 换成网页的 Link 即可。当然前提是要在 Feed43 输出的RSS中已经有正确的link项在里面。参考了这篇文章(/tag/edit-existing-rss-feeds-yahoo-pipes/)和这篇文章(/docs/error/InvalidPermalink.html) 从无 RSS 的网站生成 RSS 源(方法二、自建 RSS 生成服务器) 1. 使用自编的 PHP 程序,放到网上的免费主机上,自动抓取网页,分析其中的 URL ,生成 RSS * 关键技术用到 PHP 中的 DOM 和 XPATH * 有些 php 免费服务器不支持 CURL 的 CURLOPT_FOLLOWLOCATION 方法,如启用会出错 2. 参考文档:Using_PHP_to_scrape_web_sites_as_f

文档评论(0)

htfyzc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档