- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于网络信息自动采集技术难点及其解决办法研究
关于网络信息自动采集技术难点及其解决办法研究
摘 要 近年来,科技迅猛发展,世界已经进入了数字化、信息化的时代。网络作为当今世界上最大的信息库,逐渐成为人们获取信息的最重要途径。因为网络上的信息资源是海量的、动态的、半结构化的,而且并没有统一的组织和监管机制,如何快速地、准确地从超大量的信息中采集所需信息已然成为网络使用者迫切需要解决的问题。由此,针对目前系统中信息采集能力、可操作性和可扩展能力等存在的问题,介绍了网络信息自动采集技术的相关基础概念及原则,研究并归纳了网络信息自动采集技术的几种解决方案,分析网络信息自动采集现阶段存在的主要难点,立足网络信息化全局,就如何实现最优质信息采集使用正确的信息采集器提出建议。
关键词 网络信息;信息自动采集;技术问题难点;优化解决方案;采集器
中图分类号TP39 文献标识码A 文章编号 1674-6708(2013)87-0204-02
0引言
在利用信息时,往往需要结构化的信息以便检索和分类,然而网页上的信息基本上是非结构化的,网络信息自动采集技术以网络信息的挖掘引擎作为基础,可以在很短的时间里,智能化、自动化地把需要的信息从不同站点上采集出来,并在进行编辑、分类、格式化等等自动操作后,尽快地把信息及时发布到自己的站点上去,从而节省了人力物力,同时提高信息的及时性。
1网络信息自动采集的原则
1.1实时性原则
指能及时地获取所需要的信息,简而言之有三层主要含义:首先是指信息从在网络上出现到被采集到的时间间隔,间隔越短就代表着采集越及时,理想情况是在信息出现的同时采集到;其次是指在临时急需某一信息时能够快速地采集到该信息,也叫及时;再次是指某一采集计划所需要的全部信息所花去的时间,花费时间越少谓之越快。实时性原则保证信息采集的时效。
1.2完整性原则
信息在采集后要与原信息在内容与格式上完整不缺失,信息采集过程有一些计量标准,符合标准则能反映事物全貌的信息,完整性原则在信息利用领域的一个重要基础。
1.3可靠性原则
只有当信息来源是可靠的,信息是真实可靠的,采集到的信息才能反映真实的情况,可靠性原则也是信息采集的基础原则。
1.4准确性原则
指采集结果能准确贴合实际的工作需求和应用需要,采集结果的表述准确准确精准、没有谬误,采集结果在采集范畴之内贴合于企业企业或组织自身,关联度愈高,就代表准确性愈强,适用性就愈强。准确性保证了信息采集结果的价值。
1.5易用性原则
指采集到的信息要严格结构化,便于利用。
2网络信息自动采集的技术方案
网络信息采集技术的实现方法很多,但是可以大致分为计算机系统信息自动采集技术和人工系统信息采集技术。
人工系统信息采集技术的方法主要有直接观察法、资料查询法及社会调查法三种。其中社会调查法又可以分为典型调查法、普遍调查法、抽样调查和个别访谈法。平日里所说的信息采集技术一般都是指基于计算机系统的信息采集技术。
基于计算机系统的信息自动采集技术可分为以下8种:
1)网络信息采集技术
基本流程[1]:先获取网页的URL地址,再识别URL地址的主机,得知主机后向该主机发送请求,然后与主机构造TCP协议连接,再后依据http协议向主机发出获得URL地址的命令,从主机接受并读取服务器的响应,从而读取URL地址对应的文件的信息,之后将文件的信息写入本地结构化数据库,最后释放TCP协议连接。
2)网络信息挖掘技术
数据挖掘[2] ( Data Mining)是从互联网上大量的、残缺的、模糊随机的数据中将有价值的信息和知识提取出来的过程。
3)网络信息资源与实时推送技术
一种能够及时推送的技术,再确保数据及时全面的同时也能方便各种领域的用户查询。
4)网络信息分析和过滤技术
网络信息分析和过滤技术所控制的采集过程,可以高效地去掉无关信息和有害信息。
5)RSS推送技术
RSS[3] (Really Simple Syndi cation)推送技术是最近兴起的,使用RSS订阅能更快地获取信息,网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。
6)网络信息整合技术
建立信息搜索系统或文献数据库的途径之一。利用科学的自动分类技术,以主题、题材、关键词不同进行差异化分类,对源信息进行整合,整合后即可建立再利用机制。
7)开放链接技术
开放链接技术[4] ( OpenURL) 是一种解决不同的数字资源系统互操作、基于Web使用指定语法传送元数据的技术标准, 还是一种附
文档评论(0)