基于网格数据挖掘体系结构设计剖析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于网格数据挖掘体系结构设计 提纲 相关知识 课题背景 研究现状 研究内容 进度安排 参考文献 数据挖掘 数据挖掘(Data Mining: DM)定义为从数据中抽取隐含的、以前未知的和潜在有用的模式的非平凡过程。 数据挖掘使用机器学习、统计和可视化等技术来发现知识,并以易于人们理解的方式展现知识。 网格计算(Grid Computing) 将服务器、存储系统和网络联合在一起,组成一个大的系统,从而为用户提供功能强大的多系统资源来处理特定的任务。 对于最终用户或应用程序来说,数据文件、应用程序和系统看起来就像是一个巨大的虚拟计算系统。 与集群,P2P有区别 Globus项目 Globus项目是美国Argonne国家实验室的研发项目,Globus对信息安全、资源管理、信息服务、数据管理以及应用开发环境等网格计算的关键理论和技术进行了广泛的研究。 Globus Toolkit,能够用来帮助规划和组建大型的网格试验和应用平台,开发适合大型网格系统运行的大型应用程序。 Globus toolkit 组件 工作流(Workflow) 课题背景 在网格环境下,结合高性能的数据挖掘算法,实现一体化的数据挖掘平台,建立面向生物信息学的应用网格门户(Portal)。 有助于研究生物信息学中的问题,如基因/蛋白质的序列分析、结构辨识及其它们之间的相互作用,从而加快他们的决策过程。 基于网格数据挖掘 网格上含有丰富的数据,是数据挖掘的理想目标。 网格提供资源共享、安全机制、高性能计算能力及其分布的任务协调机制 研究现状 (1) Discovery Net是英国帝国大学开发的分布式知识发现平台。系统建立在Globus之上 专注于高性能的挖掘算法和工作流发现工具开发,提供基于网格的知识发现服务。 研究现状 (2) Grid Miner该系统实现了两种数据挖掘体系结构:基于中心化处理的数据挖掘和基于分布式处理的数据挖掘。其作业的调度和管理均交由Globus处理。 侧重与网格环境下OLAP的实现 研究现状 (3) Knowledge Grid 侧重于知识标注 研究内容 开发网格数据挖掘平台 数据挖掘工具的自适应描述框架(Adaptive Description Framework: ADF) 基于web service的数据挖掘算法 挖掘模型的可视化 网格生成数据(provenance data)的挖掘 开发网格数据挖掘平台 建立在OGSI (Open Grid Service Infrastructure)之上 网格中间件:Globus Toolkit 4 工作流软件:Taverna SOA(Service-Oriented Architecture)系统实现了一系列独立的web service,每个web service具有独立完整的功能,将这些服务组合起来构成了一个高度模块化,交互化,可重用,可扩展,易于维护的系统 主动服务(Active Service) 推荐数据挖掘工具 自适应描述框架 挖掘算法在不同的应用系统中,由于在输入数据格式、算法参数设置、挖掘模型表达和评价等方面的不同存在着很大差别。这在某种程度上,阻碍或延缓了数据挖掘在应用中的普及和推广。 借鉴Web Service 及其SOAP对计算资源的描述和消息传递机制,在PMML的基础上,定义适于数据挖掘和模型表达的描述规范。建立基于WDSL的数据挖掘工具描述语言。 算法的web service形式 Web service实现资源的共享和程序共享,软件的复用 同一个程序可以由不同的软件去调用 将Weka提供的数据挖掘程序包装成web service。 数据挖掘模型可视化 数据挖掘结果的可视化提供用户直观的图象 是一种趋势 PMML-SVG-JPEG 网格生成数据挖掘 网格生成的数据包括对资源的描述数据、工作流描述数据等。 对网格环境的健康性和协调性至关重要 建立网格生成数据的历史数据库,记录数据的产生、变换及参与的其他活动。通过对历史数据库的挖掘,来发现网格环境中发生的主要活动及其规律 体系结构 Web部分 工作流(Workflow)部分 进度安排 2007-04-01至2007-5-31:阅读相关文献。 2007-06-01至2007-7-31:完成系统体系结构总体设计。 2007-08-01至2007-8-31:验证系统设计的可行性。 2007-09-01至2007-10-31:掌握如何使用globus提供的接口进行编程。 2007-11-01至2007-12-31:实现系统原型。 2008-01-01至2008-3-15:完善系统功能。 2008-03-16至2008-5-31:完成论文写作。 参考文献 [1]Ian Foster, Carl Kesselm

文档评论(0)

三四五 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档