- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web教学资源及其自动采集技术的探究.doc
Web教学资源及其自动采集技术的探究
摘要:面对日益丰富的Web信息资源,利用技术方法对Internet上的教育资源进行高效采集,从而进一步充实教学资源库,为教学活动提供信息资源服务,对教育信息化建设起到促进作用。
关键词:教学资源 Web 信息采集
21世纪是一个信息化、教育现代化的世纪,各国都认识到把信息技术与现代教育结合起来的重要性,我国教育部也多次制订了促进教育信息化的重大战略决策。在此背景下,全国各类学校都纷纷建立了各种类别的门户网站和教学网站,一些公司企业也纷纷投入人力、物力进行数字化教学资源的开发与建设,Web教学资源也受到越来越多的关注。
1、引言
自Internet进入公众的视界以来,Web信息量呈现出了指数级爆炸性增长的趋势。据NEC研究院在《Nature》上发布,于1999年2月,Internet上公开提供Web服务的网站有达280多万个,Web网页大约有8亿个。21世纪后,各行各业已将Internet作为信息发布的主要渠道,Web网页增长的规模己超越了人们传统的利用能力,而且这种态势还在进一步加强。这就使得我们淹没在信息的海洋里,却很难找到我们想要的知识。所以使用高效的方法对Web上的教育资源进行自动采集,从而有效地充实各种教学资源库,更好地为教学活动提供信息资源服务,以对促进教育信息化建设起到巨大的促进作用,具有重要的学术意义和实践价值。
2、Web教学资源
所谓教学资源,广义上讲是指用于教学活动的资源,可以理解为一切可用于教学的物质条件、自然条件、社会条件及媒体条件。从狭义上理解,教学资源也可定义为教学材料、教学环境及教学支持系统等部分,这种解释对教学资源及教学资源库的开发与建设更具操作指导意义。
3、Web教学资源分布
Internet信息资源是由节点和超链接构成的有向图,从生态学角度分析发现,同类主题的网站通过超链接与内容引用彼此抱团,在网站之间通过网络生态链可以形成主题网站群。主题网站群由核心主题网站层和外围网站层构成,其中核心主题网站层的网站由于其规模和影响力主导了主题网站群的发展。Web教学资源作为一种主题资源是符合网络生态分布规律的。在Internet上,影响力较大的Web教学资源网站构成了核心教学资源网站,这些网站的教学资源数量较多、质量较高、人气较旺,网站发展势头也就较好,而影响力较小的教学资源网站则通过链接关系或资源引用指向这些核心教学网站。因此,由这些核心教学资源网站为自动采集的起点,通过网络生态链接算法,实现对主题网站的地位及影响力的评价,对主题资源间的生态链接关系予以评测,由此决定Web教学资源的爬取范围及方向,就可以大大提高采集效率。
4、主题资源自动采集
Web教学资源的自动采集是一种主题信息资源自动采集,主题信息资源自动采集是利用主题爬行技术以自动化的方式从Web上采集与主题相关的信息资源。主题信息资源采集是一个前后关联的系统任务,涉及了网络爬行技术、文本自动分类技术、文本抽取技术及知识工程技术等多个领域的技术。这里通过构建本体知识库,利用本体技术构建领域知识库,可对主题爬行路线进行预测判断,从而实现主题爬行导航,特别对于那种间隔性的主题漂移链接能够给出比较准确的判断。Web教学资源的自动化采集依赖于有效的主题信息资源采集技术与采集算法,知识推理引擎的推理与判断能力为实现主题信息资源有效采集提供了保证。算法设计以网页为粒度,将Web看作一个互通有向图,使网络爬虫像走“迷宫”一样智能地“蚕食”发现的主题信息资源。
5、网络生态链算法
面向当前海量Web信息资源,Web教学资源自动采集的核心算法是网络生态链算法。这种算法是把预测对象定位在网站上,对于整个网站的相关度判断可以通过迭代使用网络生态链算法予以确认,如果经多次计算后,目标网站的网络生态链生命值若降低到阈值以下,则放弃对该站点的采集,否则,确定为采集范围。网络生态链算法能够较好地预测主题信息资源的采集范围。
Web教学资源自动采集通常需要具有明确的主题范围,然后通过网络生态链算法,经周期性迭代计算就可以发现并逐步确定核心教学资源网站与外围网站。初始阶段,需要人工指定一些核心教学资源网站,把这些网站作为Web教学资源自动采集的入口站点,然后通过这些网站向外扩展以发现新的教学资源网。在教学资源采集过程中,网络生态链算法一方面要判断哪些是具有采集价值需要继续深入挖掘的站点,哪些是采集价值不高需要及时中止并改变网络爬行的路线;另一方面,通过迭代计算发现哪些新的教学网站可作为核心网站,以便对原有的核心教学资源网站群进行更新补充。Web教学资源的采集范围涵盖了Web教学资源采集的重点区域(核心教学资源网站)和围绕核心教学网站群向外扩展的站
文档评论(0)