网络信息采集技术剖析.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息采集技术剖析

网络信息采集技术剖析   [摘 要]网络时代已经到来,网络改变了我们的生活方式,也带动了网络技术不断取得新的进步。网络信息采集技术是网络建设的常见方式之一,本文将进行分析。   [关键词]网络信息;概述;采集技术;质量控制   中图分类号:TP274.2 文献标识码:A 文章编号:1009-914X(2017)17-0352-01   1.前言   网络信息资源极为丰富,概述起来有以下几个特点:一是数字化、网络化、虚拟化;网络资源以存储方式数字化、传播方式网络化、形态结构虚拟化的方式在网上表现出来。二是内容多样性;网络资源包罗万象,具有大数量、多类型、非规范、跨时空、内容良莠不齐、质量高低不等的特点。三是资源分布无序性;网络资源的构成和分布杂乱无章,缺乏统一的结构和组织。四是资源开放性;网上资源是开放的、相关联的,用户只要将计算机连接在网络上,就可以任意浏览并下载这些网络资源。五是动态性;网上资源跨地区分布,高速传播,更新淘汰周期短、变化快、不稳定,呈高度动态性和很强的时效性。六是互动性;在网上可以形成广泛的论坛氛围,专家可以就某一专题开设电子论坛,在网上直接交流讨论、反馈用户信息,具有很强的互动功能。七是增值性;网上信息资源开发与建设的最终目的是服务。用户在网上利用各种手段查找所需的信息内容,在这一过程中信息被反复利用,不但不会导致网上信息资源损耗,反而可使信息增值。   2.网络信息采集简述   2.1 采集方式   在现在的互联网世界里,我们接触最多的网络信息是以Web页面形式存在的。另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。平常,我们通常利用一些客户端软件手工链接到信息源去获取信息。例如,在win7平台上用户即可运用ie、谷歌、搜狗、有道、360等各类浏览器上网浏览所需的网页内容;运用搜狐邮箱、QQ邮箱、Outlook等收发邮件;运用迅雷等软件下载软件、电影、歌曲等。上述客户端或软件为用户上网或下载提供了方便,但均需通过手工输入链接以获取到所需的信息,但是当今网络信息爆炸,大量的信息汇聚在一起,单纯依靠手工输入的方式无形中增加了搜索的工作量和难度,难以满足用户的需求。因此,基于上述情况,信息采集与推送技术应运而生,为用户浏览信息和接收信息提供了极大便利。   2.2 采集技术   在网络信息时代,短时间内获取大量信息的最有效方式就是信息采集,尤其是在创建新站点的过程中信息采集是最常用的方式。运用采集软件或采集器即可从特定的采集对象中自动获取到所需的信息,以填充到新站点之中。网络搜索引擎也是通过一个叫做WebCrawler的机器人程序负责网络信息的采集工作的。WebCrawler是一种能够利用Web文档内的超链接递归地访问新文档的程序,它以一个或一组URL为浏览起点,对相应的WWW文档进行访问。当一个文档上传到服务器之后即有可能被搜索引擎抓取以创建文档索引,该文档中蕴含的超链接则会被WebCrawler再次抓取且再次创建新的文档索引,如此循环。一方面,为WebCrawler的抓取工作提供了海量的资源;另一方,丰富了网民的网络世界,实现了信息的快速流通。这种信息采集方式集合了定题收集与定向收集以及跟踪收集等方式,具有采集灵活与方便的特性。   2.3 推送技?g   网络公司根据自身的需求运用相应的网络技术并设定一定的标准,从海量的网络信息世界中采集所需的信息,经过加工处理之后再传递给用户。在该模式下,用户没有主动获取信息之权而且被动的接受网络公司提供的信息,但却节省了自身搜集信息的时间与成本。   3.网络信息采集技术类型   3.1 网络信息挖掘技术   网络信息挖掘技术是指在主题样本的基础上,得到数据间的内在特征,并以此为依据在网络中挖掘与用户需求一致的信息的技术。它是数据挖掘技术在网络中的应用,整合了全文检索、人工智能、模式识别、神经网络等技术。网络信息挖掘根据用户提供的主题,提取主题特征信息,根据主题特征自动在网络中挖掘信息,然后对挖掘到的信息进行整理,导入信息库,以备过滤之用。   3.2 网络信息抽取技术   网络信息抽取技术是指从网络自然语言文本中抽取更符合采集主题的信息,并形成结构化数据输出的技术。它是在机器学习、模式挖掘、自然语言处理等技术基础之上发展起来的一项新技术。网络信息抽取步骤主要分为命名实体识别、句法分析、篇章分析与理解以及知识获取。①命名实体识别。命名实体是文本中的基本信息元素,是正确理解文本的基础。命名实体是现实世界中的具体或抽象实体,例如通常由唯一标识符(专有名称)表示的人员,组织,公司,地点等,例如姓名,组织名称,公司名称,地名等。②句法分析。它是计算机通过语法分析来理解自然语言的基础,例如完整的分析树或一组分析

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档