火车头采集器-集与发布带图片的文章.docxVIP

下载本文档

18
0
约 11页
2018-04-05 发布于贵州
举报
版权申诉

火车头采集器-集与发布带图片的文章.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

火车头采集器-集与发布带图片的文章

PAGE \* MERGEFORMAT 10 如何使用火车头采集器火车头采集器 7.6 免费版，功能有很多限制，但我已使用它实现了采集与发布(带图片、排版)。图片是通过采集程序下载到本地，放在一个约定好名字的文件夹中，最后人工上传到服务器DZ程序运行目录下的pic目录下。下载火车头采集器 7.6版本LocoySpider_V7.6_BuilFree.zip，解决后可运行。需要.NET 环境。程序是Discuz!X 2.5 GBK版本。核心工作有两部分：1、采集，2、发布。本文重点说如何发布(带图片、排版)，简单说如何采集。一、新建一个使用UBB格式的Web在线发布模块因为采集下来的文章内容是HTML格式，如：p正文/p这样带有HTML标签的文本。而DZ论坛使用的是UUB格式，如：[p]正文[/p]，所以在发布时要做一个自动转换。下面就是设置这个自动转换功能。如果你的文章发布的DZ门户，就不需要转换为UBB. 1、打开发布模块配置： 2、以软件里自带的Discuz!X 2.0论坛为模板进行修改。我试过了可以正常住Discuz!X 2.5发布文章。 3、设置为：对 [标签: 内容]做 UBB转换，如下图中的样子：最后，另存为一个新的“发布模块”，起一个新名字，后面要使用。 4、在“内容发布参数”选项卡中修改： [标签: 内容] 的值可以用使用{0} 来替代。如下图：黄色框内的[标签: 内容]替换成{0} ，如下图第一部分工作就完成了。二、使用Web在线发布模块前面我新建了一个新的Web在线发布模块，下面就是使用它。第一步：新一个“发布”，操作如下图：注意：请到论坛的后台修改设置，要求登录时不需要输入验证码，才能登录成功，才能测试成功，记得以后要改回来啊。最后保存时要起个新名字。三、准备采集这里以火车自带的采集演示来说明。鼠标右击“腾讯新闻”—“编辑任务”，打开如下窗口。如下图设置，使用前一步建立的“发布模块”，可以把采集到的内容发布到论坛的某个栏目中。设置如下图：下面还有图：对于采集工作，还有一些重要的设置，很重要。如果你不是使用火车头自带的演示任务，而是自己新建采集任务，下面的内容就很重要。下面的设置，是对采集的文章正文进行的设置。 “开始字符串”，“结束字符串”是所有设置中最重要的内容，它用来分析页面的HTML源码，找出文章正文的开始点与结束点。下图中使用的是火车头为腾讯准备默认值，不需要修改。如果你不采集腾讯而采其它网站，这个就要你自己看HTML源码来人工分析了。采集时，可选择性的过滤掉一些HTML标签，如scriptiframe，如果你不知道要去掉哪些，就什么也不用改，使用默认值吧。下载的图片存目录设置图片下载后被保存在：火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。为什么叫80，其实叫什么都可以，但为了方便管理，这个腾讯采集任务编号是80，所以放在80文件夹中。以后是腾讯采集任务，采集下来图片都放在这里，方便管理。腾讯采集任务编号，请再后面一张图片中查看。客户通过浏览器访问我论坛的文章里的图片时，统一访问服务器上DZ程序的根目录下的./pic/目录，使用相对路径，pic目录下面我们再新建一个80目录，所以，把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹，COPY到服务器DZ程序的根目录下的pic目录中，这样，图片就存储在了：服务器DZ程序的根目录\pic\80\ 目录同时文章中的图片的地址是指向 ./pic/80/xxx.jpg 。文章就可以显示图片了。补充：后来经过实践，目录定为：/data/attachment/pic ，好处是：为了通过程序取文章中的第一张图片做为文章的“封面”，这个路径是合适的。四、什么样的数据容易采集请看这个新闻列表： HYPERLINK /newsgn/zhxw/shizhengxinwen.htm /newsgn/zhxw/shizhengxinwen.htm 有文章列表的、URL地址有规律的文章，容易采集。采集时优先找以上条件的文章进行采集。一般知名大网站都可以。知名大网站页面的HTML源码很简洁，方便人工分析，找出文章正文起点与终点的HTML标记。.