- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
n二、新建站点n三、采集网址n四、采集内容n五、发布内容n六、任务采集n七、导出数据
注:每次采集前需要將wamp5打开后,在用火车头采集。
3、安装PHP,输入http://localhost/phpcms/install.php进行。安装部分完成
第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新”
新建好的站点会排列在窗口左侧“站点任务列表”中。右击新建好的站点,点击“从该站点新建任务”,出现如下界面。
1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、视频、flash等),内容丰富并且在业界有一定权威性的站点。2、过于滞后的文章不要采集。(例如:08年、09年的文章)3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效率会事半功倍。4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的静态页。5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。
完成采集网址步骤之后,点击“开始测试网址采集”按钮。会出现如下界面:
选择“第二步:采集内容规则”后,出现如下界面。
选择“添加标签”后,出现如下界面。
將“标题”、“资讯内容”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”添加到标签名中,將其他不需要的标签名称删除,出现如下界面。
下面分别说明“标题”、“内容摘要”、“信息关键词”、“meta关键词”、“meta描述”、“责任编辑”、“信息来源”、“资讯内容”各个标签的采集规则。注释:一般情况下检索title/title都可以采集到我们需要的标题标签,但由于这篇文章此代码中设计到其他网站logo及列表分类不确定信息,所以选择divid=“title”h1/h1中内容来代替。如果没有合适字段,可利用“内容排除”选项进行筛选。
双击上图窗口中的“标题”标签,將“源代码”中对应的标题开始代码和结束代码分别输入到开始字符段和结束字符段中,点击确定,标题标签设置完成。
1、双击上图窗口中的“资讯内容”标签,將“源代码”中对应的资讯内容开始代码和结束代码分别输入到开始字符段和结束字符段中。2、勾选“HTML标签排除”中的“链接”、“层”、“Span”、“图象”、“脚本”选项。3、选择“内容排除”中的添加项,將资讯内容代码中的无用代码和文本添加在此选项中,过滤废物信息。
注释:在资讯内容采集过程中最主要的是对垃圾信息的删除,其中需要注意的有以下几项:href=/zt/shidabanjiangli/index.shtmltarget=_blank2010年建材行业十大评选活动圆满落幕,电话:01062298529/A)2、特殊标签(例如:IFRAMEsytle标签,大部分标签会在“HTML标签排除”中删除。)3、网站logo(例如:【STRONGAhref=/target=_blank慧聪建材网/A/STRONG】)4、文章中铭感文字(例如:点击下一页、点击查看更多图片、视频、责任编辑、评论、【热点导读】、【相关新闻】等与文章正文无关的文字。)
查看本页面“源文件”搜索description代码,找到文章描述部分。如下图:
將“源代码”中对应的描述开始代码和结束代码分别输入到开始字符段和结束字符段中,点击确定,内容描述和meta描述标签设置完成。注释:有些文章描述部分设有大量广告语或与本文无关的内容,这样的文章描述我们不给予采集。可以将标题的采集方法复制到描述采集中。
第四、信息关键词、meta关键词查看本页面“源文件”搜索keywords代码,找到文章关键词部分。如下图:
將“源代码”中对应的关键词开始代码和结束代码分别输入到开始字符段和结束字符段中,点击确定,信息关键词和meta关键词标签设置完成。注释:有些文章关键词部分设有大量广告语或与本文无关的内容,这样的文章关键词我们不给予采集。可以将标题的采集方法复制到关键词采集中。
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写自己的名称,点击确定,责任编辑设定完成。
双击责任编辑标签,选择“自定义固定格式的数据”,在固定的字符串选项中填写信息来源,点击确定,信息来源设定完成。
在“页面内容分页区域/样式设置”中将分页部分代码输入其中,用(*)代替即可。如下图:(注释:各站的分页代码不同,需要具体分析,采集分页的文章在我们后台将成为一篇通篇文章。建议少采集分页多的文章,影响用户体验。)
规则填写完成后,返回至第一步“测试网址采集”。双击所采集到的任一文章地址。则会自己弹出如下界面。(注释:建议多测试几篇文章,减少垃圾代码出现。)采集内容阶段完成,点击进入发布内容设置
获得
8、登录本
您可能关注的文档
- 2024-2030年中国植物纤维行业发展状况及供需趋势预测研究报告.docx
- 焊接培训资料课件.ppt
- 2024-2030年中国椰枣市场销售渠道及经营效益分析研究报告.docx
- 2024-2030年中国橡皮筋行业市场发展分析与发展趋势及投资风险研究报告.docx
- 2024-2030年中国橡胶热水袋行业销售动态及消费状况分析研究报告.docx
- 2024-2030年中国次亚磷酸钠行业发展动态及投资前景预测研究报告.docx
- 2024-2030年中国武术设计行业市场深度分析及竞争格局与投资研究报告.docx
- 热电偶传感器资料课件.ppt
- 2024-2030年中国母婴水市场需求领域格局与营销策略研究报告.docx
- 2024-2030年中国民族药剂行业市场发展分析与发展趋势及投资风险研究报告.docx
- 分析let s单元56ago2卷纸zheng unit56.pdf
- 塑胶材料其它分类原料pa9t 12.pdf
- md16x16数字媒体切换器设备.pdf
- 者参考项目发起人学科类型单位序列承包商修订页代码顺序典型.pdf
- 届世界天然气大会阿姆斯特丹2006add10288.pdf
- 期测试记录表每周weekly g1g6 journeys tests level 6 lesson26.pdf
- modernize-whitepaper现代化您应用程序白皮书.pdf
- anybackup产品典型案例分析.pdf
- 约克金融工程课程tfeslide32.pdf
- 广州市妇女儿童医疗中心历份教学药历01tjy.pdf
最近下载
- 飞机试飞工作手册.pptx
- 22《为中华之崛起而读书》 课件(共40张PPT).pptx VIP
- 外科休克习题及答案.docx VIP
- 《自制简易净水器》校本课教学设计.docx
- 工业相机与机器视觉知识考试题库资料及答案.pdf
- 贵州省沿河至榕江高速公路剑河至榕江段工程(变更) “三合一”环境影响报告书.pdf
- 单片机综合设计报告-led点阵屏仿电梯数字滚动显示—本科毕业论文.doc
- 中国与中亚五国农产品贸易模式探究.pptx
- 人教版生物八年级上册第六单元《生物的多样性及其保护》作业设计.docx
- 交流与传承——东西文化碰撞中的艺术嬗变 实践拓展课——捕捉光影·蓝晒 课件-2022-2023学年高中美术人美版(2019)美术鉴赏.pptx VIP
文档评论(0)