网络信息采集技术在教育领域应用研究.docVIP

下载本文档

6
0
约5.01千字
约 10页
2018-07-11 发布于福建
举报
版权申诉

网络信息采集技术在教育领域应用研究.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络信息采集技术在教育领域应用研究

网络信息采集技术在教育领域应用研究　　摘要：为实现网络信息采集技术在教育领域信息采集过程中的应用，对网络信息采集技术进行了研究，在详细阐述技术架构及其核心技术基础上，完成了信息采集系统的构建。同时简介了其他两种信息采集技术，通过对比，分析三种方法的优缺点，方便了用户和研究者的选择与应用。　　关键词：教育信息采集应用　　中图分类号：G642 文献标识码：A 文章编号：1674-098X（2014）08（a）-0114-02 　　信息技术的迅速发展，使得网络上的信息日益增多，从日常生活到科学研究，人们越来越习惯于从网络上获取知识、信息，网络成为人们获取信息、知识的首要途径。但是，人们在面对如此繁杂巨量、形式不一的信息时往往感到无所适从。笔者在从事相关研究中就遇到这样问题，需要从某些教育技术资源网站中采集满足特定条件的信息。该文就针对这一问题进行了相关的研究。　　在本研究中，需要从教育技术相关网站（中央电大开放教育教学资源查询系统、教育技术资源网、中国教育技术研究网等）中采集特定主题的，符合一定规律和格式的信息，因此信息采集的过程中，需要对网站进行分门别类，针对这些不同类型的信息，编写相应的代码和公式。同时，由于要采集信息量比较大，要实现对网络站点的自动填充和自动点击功能，在此基础上完成对网页的解析和信息抽取工作，其中要对采集的页面是否重复采集进行判断，最后实现对数据的精加工。本研究提出并实现满足上述需求的网络信息采集系统，并实现了在教育领域的应用。　　1 网络信息采集技术系统结构　　1.1 系统设计思路　　该研究中设计的网络信息采集系统基于Windows平台开发，以Microsoft visio studio 2008作为开发工具，采用C#语言编写，数据采用XML存储格式，并实现与Oracle 10 g数据库连接。系统主要实现对相关目标网站信息的采集，采用单线程、固定模式、制定框架采集，针对不同网站制定不同框架模式，采集方式灵活。　　1.2 系统基本架构　　根据上述系统设计思路的简单介绍，网络信息采集系统的基本框架如下所示[1]：　　（1）保存种子URL和待抓取URL的数据结构。　　（2）保存已经抓取过的URL的数据结构，防止重复抓取。　　（3）页面获取模块。　　（4）对已经获取的页面内容的各个部分进行抽取。　　（5）对抽取内容进行精加工处理。　　（6）数据的存储。　　系统所对应的机构图如图1所示。　　系统运行的流程如下：　　（1）确定要采集主题信息所在网站，并制定所要采集信息主题。　　（2）将要采集信息主题导入系统中，由系统模拟点击搜索按钮，搜索本网站所包含与采集信息主题相关的信息。这里起始页面的URL为网站首页，将其放入采集器Web Spider中，通过相应设置，如：页面采集深度等，让采集器Web Spider对其进行爬取，搜索其中包含的URL信息，然后通过URL地址查新，分析其中是否含有新的、符合要求的URL，如有则将未抓取的URL加入到采集器Web Spider，继续循环采集信息页面，直至再无新的URL。　　（3）采集器按照相应规则采集信息，调整页面结构，对页面实施规范化，并按照规则自动实现聚集，生成初步采集信息。　　（4）采集过的信息经过信息提取，主要通过Xpath表达式提取，经过相应处理、格式转换等生成处理完毕的信息，并生成相应的索引，到此，信息采集就已完毕。　　（5）将采集完的信息存储到XML文件格式中，按照需要，决定是否要存储到关系数据库中。　　（6）信息展示。　　2 核心技术　　在本系统中，用到的支撑技术主要有URL地址查新技术、基于HtmlAgi lityPack和Xpath的数据提取技术、模拟填充和自动点击功能，数据精加工技术。　　2.1 URL地址查新技术　　URL的地址查新是通过布隆过滤器来判断一个经过Hash函数散列的URL是否已经被访问过，从而避免重复采集同一URL数据以及程序陷入死循环。　　2.2 基于HtmlAgilityPack+Xpath的数据提取技术　　HtmlAgilityPack是一个开源的项目，为网页提供了标准的DOM API和Xpath导航。在整个系统中，HTML页面解析，文本抽取，遍历等都要用到这个包，而Xpath作为一种路径表达式工具，可以很好的“深入”WEB页面代码中的最小单位，精准定位到目标数据所在的代码行。通过将两者结合，可以有效地对经过解析的页面进行目标数据采集。　　2.3 模拟填充和自动点击功能　　模拟填充和自动点击主要针对例如百度这样具有搜索功能的网页。而大多数网站都具有站内搜索功能，WEB信息数据挖掘系统就可以利用这一功能实现信息抓取。对于我们要采集的目标网站而言，站内检索页面往往提供了普通搜索和