浅谈互联网信息智能整合系统关键技术.docVIP

浅谈互联网信息智能整合系统关键技术.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈互联网信息智能整合系统关键技术

浅谈互联网信息智能整合系统关键技术摘要:互联网信息智能整合系统是为提高互联网信息的及时性、准确性、利用效率,基于自然语言处理和人工智能技术,采用.Net框架和SOA架构而设计的,面向行业基于互联网的信息智能整合平台。系统把网络蜘蛛技术、人工智能、RSS内容分析与处理技术、Agent技术等基础技术应用于互联网信息整合领域,灵活应用于互联网信息采集、信息处理和分析、信息管理等各个环节。 关键词:智能;信息;整合 中图分类号:TP393.02 文献标识码:A 文章编号:1007-9599 (2012) 11-0000-01 互联网信息智能整合系统是依托中间件和人工智能技术进行互联网信息收集、处理和管理,最终提供互联网动态信息整合与发布服务的信息系统。主要功能是自动对互联网上成千上万的政府网站、相关行业网站、竞争对手网站上的目标信息进行实时监测、采集和处理,自动完成信息的筛选、去重、分类、入库并将各个网站中不同结构和表现形式的有用信息,按照统一、规范的结构进行整理、分类,形成高质量、便于利用和检索的结构化数据库,并提供一套功能完善的信息检索、数据统计和网站发布系统。下文针对软件中所应用的关键技术作以简要分析: 一、多智能Agent技术 Agent技术是当今计算机科学的一个研究热点,它的不断发展为我们提供了一个将信息发现个性化和智能化的契机。Agent是指信息世界中的软件机器人,它是代表用户或其他程序,以主动服务的方式完成一组操作的机动计算机实体。Agent技术的本质就是研究如何使一个或多个实体尽可能地不打搅用户,依靠其自身的能力,采用各种可能的方法和技术,完成用户所委托的较为复杂和繁琐的任务。Agent技术区别于传统技术的主要特征是它具有自制能力、智能和目标驱动属性,能够通过各种社交、学习、推理等方法感知和适应复杂的动态环境,具有自动追求目标的能力,它们可以理解用户的信息需求和兴趣偏好,会在用户发出请求之前就定位并搜索信息,以便在用户需要时及时提供。Agent技术是传统检索技术的发展和飞跃,具有强大的开放性、灵活性和协作性。Agent技术是解决现有WWW信息查询系统收集率低,查询和处理能力差的一个很有前途的方法。 互联网信息智能整合系统采用Multi-Agent协作区的框架结构,在该框架结构下各个Agent具有自主性,能够基于独立的知识采用机器学习的方法自主地完成一定的信息的搜集和处理任务;各个Agent具有个性化的特点,不同的Agent针对不同任务可以拥有不同的知识库、不同工作策略,以求取得最佳的工作效果;各个Agent具有学习性,通过不同的机器学习机制,可以不断提高该Agent性能和效果;各个Agent也具有协作性,可以通过协作的方式完成各种复杂的竞争情报的搜索和分析任务。 二、RSS内容分析与处理技术 RSS(也叫聚合内容,Really Simple Syndication)是一种描述和同步网站内容的格式,是目前使用最广泛的资源共享应用,可以被称为资源共享模式的延伸。RSS是互联网站点用来和其它站点之间共享内容的一种方式,用户也可以通过RSS阅读器,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容,网站提供RSS输出,有利于让用户发现网站内容的更新。目前提供RSS输出的网站越来越多,尤其是新闻类网站,已成为一种有效的方式。 信息智能整合系统采用RSS订阅方式进行信息采集,所采用的RSS内容分析和处理技术是公司独立自主研发的具有独立知识产权的技术,该技术针对国内外互联网上RSS信息源的编码繁多、格式不完整、结构错位等各种情形都进行了特殊处理,具有非常好的兼容性和适应性。 三、网络蜘蛛技术 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络蜘蛛是所有搜索技术的基础。 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。 四、网页监测技术 网页监测技术是基于网络蜘蛛技术,可帮助用户时时监测某一网站或网站群某一页面的内容变化,对这些具有相关主题内容的网页

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档