网络信息采集技术在教育领域应用研究.docVIP

网络信息采集技术在教育领域应用研究.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息采集技术在教育领域应用研究

网络信息采集技术在教育领域应用研究   摘 要:为实现网络信息采集技术在教育领域信息采集过程中的应用,对网络信息采集技术进行了研究,在详细阐述技术架构及其核心技术基础上,完成了信息采集系统的构建。同时简介了其他两种信息采集技术,通过对比,分析三种方法的优缺点,方便了用户和研究者的选择与应用。   关键词:教育 信息采集 应用   中图分类号:G642 文献标识码:A 文章编号:1674-098X(2014)08(a)-0114-02   信息技术的迅速发展,使得网络上的信息日益增多,从日常生活到科学研究,人们越来越习惯于从网络上获取知识、信息,网络成为人们获取信息、知识的首要途径。但是,人们在面对如此繁杂巨量、形式不一的信息时往往感到无所适从。笔者在从事相关研究中就遇到这样问题,需要从某些教育技术资源网站中采集满足特定条件的信息。该文就针对这一问题进行了相关的研究。   在本研究中,需要从教育技术相关网站(中央电大开放教育教学资源查询系统、教育技术资源网、中国教育技术研究网等)中采集特定主题的,符合一定规律和格式的信息,因此信息采集的过程中,需要对网站进行分门别类,针对这些不同类型的信息,编写相应的代码和公式。同时,由于要采集信息量比较大,要实现对网络站点的自动填充和自动点击功能,在此基础上完成对网页的解析和信息抽取工作,其中要对采集的页面是否重复采集进行判断,最后实现对数据的精加工。本研究提出并实现满足上述需求的网络信息采集系统,并实现了在教育领域的应用。   1 网络信息采集技术系统结构   1.1 系统设计思路   该研究中设计的网络信息采集系统基于Windows平台开发,以Microsoft visio studio 2008作为开发工具,采用C#语言编写,数据采用XML存储格式,并实现与Oracle 10 g数据库连接。系统主要实现对相关目标网站信息的采集,采用单线程、固定模式、制定框架采集,针对不同网站制定不同框架模式,采集方式灵活。   1.2 系统基本架构   根据上述系统设计思路的简单介绍,网络信息采集系统的基本框架如下所示[1]:   (1)保存种子URL和待抓取URL的数据结构。   (2)保存已经抓取过的URL的数据结构,防止重复抓取。   (3)页面获取模块。   (4)对已经获取的页面内容的各个部分进行抽取。   (5)对抽取内容进行精加工处理。   (6)数据的存储。   系统所对应的机构图如图1所示。   系统运行的流程如下:   (1)确定要采集主题信息所在网站,并制定所要采集信息主题。   (2)将要采集信息主题导入系统中,由系统模拟点击搜索按钮,搜索本网站所包含与采集信息主题相关的信息。这里起始页面的URL为网站首页,将其放入采集器Web Spider中,通过相应设置,如:页面采集深度等,让采集器Web Spider对其进行爬取,搜索其中包含的URL信息,然后通过URL地址查新,分析其中是否含有新的、符合要求的URL,如有则将未抓取的URL加入到采集器Web Spider,继续循环采集信息页面,直至再无新的URL。   (3)采集器按照相应规则采集信息,调整页面结构,对页面实施规范化,并按照规则自动实现聚集,生成初步采集信息。   (4)采集过的信息经过信息提取,主要通过Xpath表达式提取,经过相应处理、格式转换等生成处理完毕的信息,并生成相应的索引,到此,信息采集就已完毕。   (5)将采集完的信息存储到XML文件格式中,按照需要,决定是否要存储到关系数据库中。   (6)信息展示。   2 核心技术   在本系统中,用到的支撑技术主要有URL地址查新技术、基于HtmlAgi lityPack和Xpath的数据提取技术、模拟填充和自动点击功能,数据精加工技术。   2.1 URL地址查新技术   URL的地址查新是通过布隆过滤器来判断一个经过Hash函数散列的URL是否已经被访问过,从而避免重复采集同一URL数据以及程序陷入死循环。   2.2 基于HtmlAgilityPack+Xpath的数据提取技术   HtmlAgilityPack是一个开源的项目,为网页提供了标准的DOM API和Xpath导航。在整个系统中,HTML页面解析,文本抽取,遍历等都要用到这个包,而Xpath作为一种路径表达式工具,可以很好的“深入”WEB页面代码中的最小单位,精准定位到目标数据所在的代码行。通过将两者结合,可以有效地对经过解析的页面进行目标数据采集。   2.3 模拟填充和自动点击功能   模拟填充和自动点击主要针对例如百度这样具有搜索功能的网页。而大多数网站都具有站内搜索功能,WEB信息数据挖掘系统就可以利用这一功能实现信息抓取。对于我们要采集的目标网站而言,站内检索页面往往提供了普通搜索和

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档