数据采集整理分发系统的研究.docVIP

  • 5
  • 0
  • 约3千字
  • 约 4页
  • 2017-06-11 发布于北京
  • 举报
信息采集整理分发系统的研究 一 概述 系统主要功能是实现一个针对不同类型农业资源数据库等资源实现数据采集整理和分发的平台,此平台能够实现数据采集处理分发的自动化和智能化。 二 系统结构 数据采集整理分发系统主要包括三部分:内容抓取模块(Crawler Module)、信息处理中心(Information Process Center)和分发中心(Distribution Center),各个模块部分均支持多线程。 内容抓取模块:负责分析其它数据库信息内容,提取正文内容,并初步判断是否符合用户配置规则。 信息处理中心:负责信息的统一处理,进行数据格式统一,实现信息处理的智能化和自动化。 分发中心:负责将处理后的数据信息分发至索引模块数据库系统。 三 系统功能结构 1、信息的收集:主要进行信息自动下载、内容智能分析与初步过滤,剔除无用、过期与重复的信息,并进行自动分类,实现与其他农业数据库资源信息的采集、分析过滤的自动化。 2、信息管理:数据采集分发系统对本地的海量信息进行统一管理。 3、信息利用: 人工智能分析 通过人工辅助的方式,运用各种信息分析方法,围绕采集目标相关的信息进行检验、整理和重组,使其有序化、系统化、层次化,以获得更多、更有价值的信息。 信息分类与检索 对采集的信息内容进行计算机自动分类与人工辅助分类,然后通过专题检索和相关内容自动关联检索手段,从大量文本信息中提取出有价值的知识,方便信息加工人员对知识的发现和利用。 信息推送与发布 通过信息主动推送的方式,推送到相关的数据库。 辅助简报生成 对于经过人工分析与挖掘的信息内容,可以通过人工辅助生成简报和报告的方式提交给用户;对于经过分类的信息提供给相应的信息研究与信息利用部门,进行信息的深加工。 四 采用技术 1基于多代理的数据采集系统 数据采集分发系统的计划和协调是一个具有独立性、自主性、分布性的多个实体之间的交互协作的并行过程。在动态变化的环境中,外部数据库资源发生变化时,要求计划和协调系统具有高度的柔性和自治性。由于多代理系统(Multi-agent System, MAS)具有适应环境的动态自组织能力,因此,采用MAS支持农业数据采集系统是一种有效的方法。 多代理系统(MAS)是近几年来分布式人工智能(DAI)领域中的研究热点,着重于研究包括多个实体的系统构建原则,以及实体之间的协调机制。传统的DAI主要研究分布式问题的求解(Distributed Problem Solving, DPS)DPS系统更能体现人类社会的智能,更适合于开放动态的环境。 多代理系统中的每个代理(Agent)都是一个具有自治性、反应性、主动性、可通信性和自学习功能的实体。Agent的自治性和系统的协调机制使得MAS在描述复杂系统方面有如下的特点: 分布性:MAS不仅在结构上是分布的,在逻辑上也是分布的,其中的Agent具有不完全的知识和分布决策能力,计算也是异步进行的,因此MAS非常适合并行操作。 适应性:对于环境的变化和不确定性因素, Agent可以在协调机制下通过交互和自学习,适应新的环境条件。 开放性:Agent无论从概念上还是从实现手段上都是一种封装模型,其内部结构和算法可以由不同人在不同时间和地点采取不同方法加以实现,通过标准的消息接口而加入到 MAS中。 4) 鲁棒性:对于外部干扰,MAS可通过Agent的交互协调进行参数调整来保存系统的性能水平。 数据采集中的实体一般是基于自己的目标和资源约束进行自主或半自主的运作,我们可以直接将这些自主或半自主的实体抽象为Agent模型。这样我们可以将数据采集抽象为由加工代理、采集代理、传输代理等组成的MAS系统。代理的相对自治性及其之间的协同能力,使MAS具有高度的柔性、自适应性、并行性和良好的可伸缩性,并能对环境变化做出快速响应,这些特点,使得MAS系统能够支持数据采集实时性、安全可靠性的全面提高。 2异构信息资源集成应用采用CORBA 技术实现 公用对象请求代理体系结构CORBA (Common Object Request Broker Architecture) 是对象管理组织OMG(Object Management Group) 为适应当今快速增长的软硬件协同工作能力的要求而提出的方案。 CORBA, 而不论他们在什么地方或者由谁来设计。 , 将应用模块按总线规范做成软插件, 插入总线即可实现集成运行。CORBA ORB (对象请求代理器)。ORB不仅支持标准的OMG对象模型, 还具有分布进程管理和通信管理功能, 取代了传统客户/ 服务器结构中的相应接口部分。在CORBA 结构中ORB是一个中间件,它在对象间建立客户/服务器的关系。通过ORB,客户可以简单地使用服务器对象的方法,而不论服务器是在同一机器上还是通过一个

文档评论(0)

1亿VIP精品文档

相关文档