基于本体分布式数据挖掘系统构建.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体分布式数据挖掘系统构建

基于本体分布式数据挖掘系统构建   摘要:文章借助本体和分布式挖掘的相关理论,在这些理论的基础上创建了基于本体的分布式数据挖掘系统,建立了系统的本体库,构建了数据挖掘本体,旨在为数据挖掘领域创建一个统一的数据挖掘本体,为新产生的研究成果进行科学、正规的语义描述,这在分布式数据挖掘领域将具有重要的指导意义。   关键词:本体;分布式;数据挖掘   中图分类号:TP311.13文献标识码:A文章编号:1006-8937(2011)20-0076-02      1基于本体的分布式数据挖掘系统   1.1系统构建思想   分布式数据挖掘系统的信息源属于集成分布式的信息系统,它面临的主要问题是缺乏统一的语义集,造成语义异构主要有四种原因:不同的信息源使用多种术语(词汇)表示同一概念;同一概念在不同的信息源中表达的含义不同;各信息源使用不同的结构表示相同或相似的信息;各信息源中的概念之间存在着各种关联,但由于各信息源的分布自治性,这种隐含的联系不能显式体现出来。而本体的出现就可以有效解决分布式异构数据语义异构(即描述术语差异)的问题,这主要是因为本体能够描述目标世界需要所涉及的人员都共同认可的词汇,具有统一的规范,并且对人类活动的假设或设想等隐含知识进行清晰化表示。这就有效解决了分布式数据挖掘信息源的描述术语差异问题。   本体在分布式数据挖掘系统中扮演的角色主要是语义表示、推理、信息通信和重用。用户在数据挖掘过程中将关键词输入,通过本体的语义分析能够得出更加接近客户需求的结果。为将本体更加有效引入分布式数据挖掘系统,本文将创建一个基于本体的分布式数据挖掘系统,详细描述其各个部分的功能连接,同时也会详细描述系统的重要部分――数据挖掘本体,具体说明数据挖掘本体中5个基本实体的设计原则,使本体论在数据挖掘领域得到有效利用。   1.2系统的构建和概述   在这个数据挖掘系统中,主要设计三个本体:元数据本体、知识领域本体以及最重要的数据挖掘本体,如图1所示。图1是一个基于本体的分布式数据挖掘系统模型,它的工作原理是分布在网络各个节点的外部资源以及内部资源整合到一个大型数据仓库中,元数据本体负责对其基本实体、属性进行建模,并详细描述概念与概念直接的关系。根据待挖掘数据的需要(一般是用户输入),知识领域本体抽取相关的元数据本体,并结合现有知识选择适当的本体开始数据挖掘任务,数据挖掘本体则将选中的本体进行预处理,然后选择合适的算法进行挖掘,挖掘结束后,建立可视化的结果模型并将其输出到用户界面。每完成一次数据挖掘任务,知识领域本体都会根据新知识对自身进行更新,并从结果模型中萃取知识以便下次数据挖掘任务进行时选择出更适合挖掘任务的本体。   元数据本体:这是在分布式网络环境下实现机器与机器之间的语义理解而设定的规则,它集合了元数据和本体的优势。元数据提供了语义基础,使资源有了基本的微观结构,但并不能完全解决信息系统的语义异构问题。而元数据本体能够对不同实体对象间的关联做出很好的描述,从而为信息组织、管理以及检索、查询提供模型和方法。它的主要职能是创建各个变量并描述变量的相关信息。   知识领域本体:知识领域本体在宏观的层面上对领域知识进行分析、明确,并使其形式化,在人、机器(代表为软件代理)之间实现共享以及对信息结构的共同理解,除此之外,它还要实现一定程度的领域知识的重用(例如银行总行的业务表在各个分行间的重用)。   数据挖掘本体:描述了所有知识的选择过程,如通过变量有效选择功能、最佳算法,并建立有效的进程序列。   从系统的工作原理可以看出,元数据本体和知识领域本体的作用是对现有知识进行建模并且不断发现新的知识。而在数据挖掘任务中,起到核心作用的则是数据挖掘本体,它需要将已选本体进行预处理,选择合适的算法对本体进行操作,最终形成可视化的结果模型。在下一章将详细说明数据挖掘本体的设计过程。   2系统本体库的建立   随着本体数量的增加,维护和重新组织各种各样的本体以利于知识的共享和重用正越来越成为挑战性的任务。由于缺乏成功的本体共享和重用,阻碍了本体更大规模的发展,本体技术的突破性发展需要有效的方法和工具,一个本体库系统是为了提供各种管理、适应和标准化本体功能的系统。它应该满足本体重用的需求,有利于本体的重用和共享是一个本体库系统最重要的要求。   2.1管理    由于开发本体的最主要目的是为了实现知识的共享和重用,所以本体库系统的最重要的功能之一就是有利于知识(本体) 的重用,这些功能主要包括:开放式存储、标识和版本化支持。   存储和标识功能主要是由元数据本体完成。为了有利于查找、管理和重用本体,元数据本体应该对本体库系统的本体加以分类。良好的分类方式将有助于用户查找和识别相关的本体。除此之外,元数据本

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档