获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具.docVIP

下载本文档

6
0
约2.76千字
约 4页
2017-08-26 发布于河南
举报
版权申诉

获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具

获取全文 Feed 以及从无 Feed 输出页面上自行制作 Feed 几种方法及工具获取全文 Feed 以及从无 Feed 输出的页面上自行制作 Feed 的几种方法和工具 ============================ full-text-rss的安装（本地安装） 1. 准备运行环境 xammp 中的 apache 服务器自带 php。在 htdocs 目录中新建一个目录，如full-text-rss-2.7，[下载地址](/p/full-text-rss/source/tree/master/)，将 full-text-rss 压缩包中的文件解压缩到该目录下，就可以在浏览器中打开了。默认安装的 xammp PHP 环境未打开 Tidy 和 cURL 两个模块，可以到xammp/php目录下的php.ini中搜索 extension=php_tidy.dll 以及 extension=php_curl.dll 两行，默认前面有分号注释掉了，将分号去掉，重新启动apache服务器，这两个扩展即启用。 2. 通过 site_config 下的配置文件对抓取的网站进行匹配，选取有用内容，删除无用内容 * full-text-rss的自动全文抓取是通过程序分析博客全文网页，找到其中的全文内容。不过自己建站时，可以通过其提供的site_config功能更精确的指定全文位置，提高准确率。 * 以新浪的匹配文件为例，文件名为 ..txt，放在 site_config\custom 目录下。可以匹配，如需匹配或，则文件名应为。 * 文件内容如下 body: //div[@id = sina_keyword_ad_area2] strip: //div[@id=sina_keyword_ad_area2]//span[contains(@class, MASS)] prune: no tidy: no * 第一行表示正文的内容，div是块名称，前面的//表示可以html文件中任意层次的块。 * 第二行用于去除html中的干扰文字，前面一半是引用正文块，后面的//span是说在上层块下任意层次的一个 span。而且其中用了一个 xpath 的文本选择语句，意思是要求匹配的span块，其中的 class 属性的内容要包含 MASS 。 * 后面两个参数， prune 和 tidy，在进行人工配置时要通过设为 no 禁用。有问题，通过人工分析解决，不要用电脑的自动分析。等测试成功正式使用时可以去掉。 3. 其他注意事项 * 要看修改site_config文件的效果，直接刷新feed输出页面，不要回到起始页面再重新生成feed，这样反而会让浏览器调用之前缓存的页面，看不到修改后的效果。 * 不要启用full-text-rss的缓存，不过默认就是禁用的。 4. 在支持 PHP 的免费主机上建立full-text-rss服务 * 过程和使用本地服务器差不多，服务器应建在国外，否则有些国外的博客会取不到全文页面。 * 为了减少免费服务器的负荷，新建立的 RSS 抓取模板可以先在本地测试后再上传到服务器端。从无RSS的网站生成RSS源（方法一、借助 Feed43 和 Yahoo Pipes 等第三方工具） 1. 使用Feed43生成网页的RSS 配置选项较多，有一定的学习曲线。 2. 使用 Yahoo Pipes 对 Feed43 生成的 RSS 进行优化 Feed43生成的GUID不是指向URL，而是随机生成的一串数值，有时候网页更新后，相同item的GUID会发生变化。反映到 Google Reader 中就会有某篇文章重复出现的问题。这时可以将其导入 Yahoo Pipe 中，用 Fetch Feed 和 Create RSS 两个工具将 GUID 换成网页的 Link 即可。当然前提是要在 Feed43 输出的RSS中已经有正确的link项在里面。参考了这篇文章（/tag/edit-existing-rss-feeds-yahoo-pipes/）和这篇文章（/docs/error/InvalidPermalink.html）从无 RSS 的网站生成 RSS 源（方法二、自建 RSS 生成服务器） 1. 使用自编的 PHP 程序，放到网上的免费主机上，自动抓取网页，分析其中的 URL ，生成 RSS * 关键技术用到 PHP 中的 DOM 和 XPATH * 有些 php 免费服务器不支持 CURL 的 CURLOPT_FOLLOWLOCATION 方法，如启用会出错 2. 参考文档：Using_PHP_to_scrape_web_sites_as_f