- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题网络爬虫网络学习资源收集平台设计
基于主题网络爬虫网络学习资源收集平台设计
摘 要:收集现存于网络中的信息,对其进行加工、处理使其成为可用的学习资源是网络学习资源建设中一项重要工作,主题网络爬虫为在网络学习资源建设过程实现信息的自动收集提供了可能,本文以此为基础设计了一个能满足资源建设需要的网络学习资源收集平台并对设计过程中的关键问题进行了分析。
关键词:主题网络爬虫 网络学习资源 网络学习平台设计
中图分类号:G250.73 文献标识码:B 文章编号:1673-8454(2010)01-0036-03
收集现存于网络中的各类信息,对其进行加工、处理使其成为可用的学习资源是网络学习资源建设中一项重要工作,在其过程中资源建设者面临两大难题:
(1)如何高效、快速地从网络海量信息中筛选出资源建设所需的各种信息;
(2)如何使加工完成的资源更新速度跟上网络信息快速更新的速度。
这两个问题的解决不能靠人工操作完成,较好的解决方案是使用功能程序辅助资源建设者进行信息收集和检测,目前被广泛使用于网络搜索引擎的网络爬虫能较好地解决上述两个问题,本文就网络爬虫在网络学习资源建设中的应用方法进行研究。
一、主题网络爬虫及其工作原理
网络爬虫是一个网页自动提取程序,它从一个或若干初始网页开始,获取包含在其中的URL(Uniform Resourcl Locator,统一资源定位符)进行网页抓取,在抓取网页过程中,从被抓取的网页中抽取新的URL放入抓取队列,直到满足系统设定的停止条件终止抓取过程。主题网络爬虫是根据一定网页分析算法过滤与主题无关的链接,只保留主题相关的链接进行网页抓取。[1] 主题网络爬虫工作原理如图1所示。[2]
主题网络爬虫各个组成部分功能如下:
(1)初始页面:包含超链接的一个或若干个网页,主题网络爬虫从中获取要抓取的起始页面。
(2)页面预处理模块:用于页面的分析和去除页面中的无用信息(如广告链接等)。
(3)链接分析模块:用于分析页面中提取的超链接,并将有效链接放入下载URL队列等待抓取。
(4)下载模块:从下载队列中获取URL进行网页抓取。
(5)主题过滤模块:对抓取的页面按照主题进行过滤,去除跟主题无关的页面,将满足条件的页面放入页面库。
(6)页面库:用于存放被抓取满足条件的页面。
根据其工作原理,主题网络爬虫能够从一个或若干个初始页面开始自动收集分析满足特定要求的页面并对其进行保存,完成信息的收集。因而在网络学习资源建设过程中,可以以此为基础设计一个自动收集信息的平台有效地解决前文所述网络学习资源建设过程中面对的两个难题。
二、平台的结构及运行流程
1.将主题网络爬虫直接应用网络学习资源的收集会产生的问题
(1)主题网络爬虫工作时需要从一个或若干个起始页面获取URL启动抓取过程,但它本身不能产生,需要资源建设者提供,而且初始页面的内容会直接影响主题网络爬虫抓取的信息的覆盖率和准确性。
(2)主题网络爬虫只能够按照要求进行页面的获取和保存,不能分析其内容的科学性和准确性,而科学准确是学习资源对信息最重要的要求。
(3)主题网络爬虫不提供对抓取、保存的信息进行处理的功能,而信息需要进行加工处理才能成为可用的学习资源。
因此以主题网络爬虫为基础构建网络学习资源收集平台必须解决这三个问题,综合网络主题网络爬虫的工作原理和网络学习资源建设内在的要求,基于主题网络爬虫的网络学习资源收集平台结构如图2所示。
2.整个平台由数据层、系统层和应用层构成
数据层用于保存平台运行过程中需要以及产生的数据,包括:
(1)初始页面列表:用于保存初始页面的URL,初始页面既可以是已存在于网络中的页面,也可以是根据资源建设需要由建设者整理编辑完成的页面。
(2)保存页面URL列表:用于保存页面库中页面的URL。该数据可用于注明已下载的页面的出处以及减少平台在资源下载过程中对相同位置上的同一资源进行重复下载。
(3)主题列表:用于保存在信息筛选时使用的主题信息,通过修改和设置主题列表可以使平台收集不同主题的信息,提高平台的通用性。
(4)页面库:用于保存由平台下载且经过主题筛选的页面。
系统层核心是一个主题网络爬虫,根据网络学习资源建设需要进行了优化和功能扩展。体现在以下两方面:
第一,主题过滤模块每次工作时首先从主题列表中读取主题,以确定本次工作的主题信息。
第二,下载模块进行页面下载时,首先查询下载页面的URL是否存在于保存页面URL列表中,如果存在则跳过该页面的下载,进行下一个页面的下载;完成页面下载后将其URL加入保存页面UR
您可能关注的文档
最近下载
- 教科版科学五年级下册第三单元 环境与我们 大单元整体教学设计学历案教案附作业设计(基于新课标教学评一体化).docx VIP
- 2024年南京信息职业技术学院单招数学考试试题及答案解析.docx VIP
- 音韵学讲义教案第二章音韵学的基本知识.doc
- 教科版科学五年级下册第二单元 船的研究 大单元整体教学设计学历案教案附作业设计(基于新课标教学评一体化).docx VIP
- 石油化工3503电缆安装质量验收记录.docx VIP
- 2025年商铺租赁合同范本全新修订.docx VIP
- 《中医病证分类与代码》(2020修订版).docx VIP
- 中医食疗 糖尿病痛风类风湿的中医食疗 课件.ppt VIP
- 安徽中汇发新材料有限公司35万吨年轻烃裂解制苯乙烯项目(一期).pdf VIP
- 2025年南京信息职业技术学院单招语文考试题库及答案解析.docx VIP
原创力文档


文档评论(0)