- 1
- 0
- 约1.69千字
- 约 9页
- 2019-04-05 发布于江苏
- 举报
简单快速采集浪闻方式.docx
常规新浪新闻采集
本教程是演示熊猫采集器如何快速且简单的采集到我们所需要的新闻。
个人感觉熊猫采集器不仅操作非常简单,而且还完全免费了,有兴趣的看官们可以搜索熊猫采集,去官网上面下载。
好了,废话不多说,进入到我们采集的过程上面来吧!
首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)
随便输入一个项目名称,或者不输入也是可以的,系统默认会给你命名一个项目名,这里因为我是采集新浪新闻, 我就起了新浪新闻作为我需要的项目名
然后点击下一步
进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们在采集新浪新闻的时候也要找这么一个标题列表页面,这里我们用新浪的军事新闻作为一个采集的示例,如下图:
我们将这个标题列表页的网址拷贝到我们的软件中来
点击我们的开始分析按钮
如果我们需要翻页采集,那么选择是即可,不要则选择否即可。我这里没有设置翻页采集,我选择的是否,当然这个根据实际情况来决定。(下面我会做一个针对如何手动设置翻页的补充)
点击下一步设置,进入选择内容页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置
来到内容页面模板管理,直接点击添加新模板,会把我们在上一步选中的链接作为模板,这地方也可以自己选择一个模板,然后把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板
点击添加新模板之后会弹出一个设置模板的新窗口。点击软件上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要采集的内容,这种操作会很灵活,由于选择是非常简单,我们这里就选择否了)如图
之后我们会发现左边款里面会出现很多我们在网页中能看见的内容,这个时候我们需要什么就勾选上采集该项即可。
采集到这里的时候,也行我们会发现,正文内容不是一行就可以选中的,正文分成了很多行,这个时候就需要用到熊猫的复合语句了,选择正文的开始,用一个字段保存起来。在找到正文的结束,用和保存正文开始相同的字段保存起来
到此,我们的采集就已经完成了,下面我们要做的就是保存我们的设置后,运行就可以得到我们想要的结果啦。
可以看出,新浪的新闻已经被我采集下来了。
补充:
上面我们讲到的翻页的时候,我们并没有任何的翻页处理,这里我们主要就讨论一下手动翻页和软件自动帮我们翻页,
软件自带的翻页功能就比较简单了,我们在进行分析的时候,出来一个提示框,我们选择是即可进行下一步操作,这个我们就不需要进行过多的叙述了。如下图:
这里我们主要讨论一下手动的如何设置翻页,也就是在我们选择否的情况下,我们自行如何设置翻页。首先,我们需要去我们采集的网站上面看一下,我们采集的网址,在浏览器中点击下一页的时候,网址有没有什么变化,第一页我们已经知道了它的网址,下面我们翻到第二页,
在翻到第三页,
我们发现,在我们进行翻页的时候,变化的index后面的数字而已,也就是说那个数字就是代表我们的现在在那一页上面,好,知道这个,我们就可以在软件中自行定义定义我们的翻页了
首先,新增一个参数定义,
上面我们已经知道,数字就是代码我们在那一页,这个时候,我就用一对大括号将数字代替掉,并随意命名,如下图:
这个时候我们也得将我们的参数名称填上,也就是和上面我们自定义的参数名是一模一样即可,如下图,
这个时候,我们的参数名称已经设置完毕,通过上面我们在浏览器中看如何翻页已经了解,我们的翻页是1,2,3呈递增的方式,这个时候我们就需要设置我们想从第几页开始采集,并采到那一页,且每次变化1即可,如下图:
到此,我们的手动翻页设置也全部完成,通过上面我们的例子可以发现,熊猫采集软件设置采集的时候是非常简单的。
您可能关注的文档
- 福建福州八中学高二语文上学期期末考试试题(含解析)人教.doc
- 秋教材上UnitI’mmoreoutgoingthanmysister学案.doc
- 秋期末考试思想品德试卷.doc
- 秋营中学高二文学名著阅读竞赛.doc
- 秋语文上学期期中联考试题.doc
- 种型可光降解全塑水乳基软管包装功能材料.doc
- 种的分析铣削高速稳定叶的实验方法.doc
- 种的判别分析方法——模糊典型判别分析.doc
- 科学下期初测试卷.doc
- 科研成果查证明书.doc
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- 第六章 《中国的地理差异》 课件 2025人教版地理八年级下册.ppt
- 2025至未来5年中国无刷电机控制器市场数据分析及竞争策略研究报告.docx
- 2025中央民族大学教学科研人员招聘3人笔试参考试题附答案解析.docx VIP
- 2023年湖北省高考数学试卷真题(含答案详解).pdf
- IATF16949汽车认证方案获得并保持IATF认可的规则 第六版-A1(1).pdf VIP
- 园林生态学教学课件电子教案全套课件.pptx
- AIGC驱动的室内设计课程项目化教学.docx VIP
- DB46_T 692-2025 避寒旅游目的地气候资源评价技术规范.docx VIP
- DB37_T 4904-2025 链式切割水泥土连续墙技术规程.docx VIP
- 2023年湛江雷州市公安局招聘警务辅助人员考试真题及答案.docx VIP
原创力文档

文档评论(0)