- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web服务数据挖掘系统算法设计
基于Web服务数据挖掘系统算法设计摘要:与传统的数据挖掘系统的算法库相比,在数据挖掘系统算法库中引入Web服务可以实现数据、算法和接口的分离,极大的缩减了算法库开发的复杂性并为动态管理算法库提供了便利。此外,从标准的平台无关性的角度来看,采取Web服务的设计的系统具有了平台无关性和语言无关性的特点。我们可以通过任何语言来实现将挖掘算法封装到Web服务中,并从程序设计语言中分离出来,这样就为算法设计提供了最大的自由度,提高了维护性能。因此,基于Web服务技术的数据挖掘系统对于提高数据挖掘的效率具有非常重要的意义。
关键词:Web服务;数据挖掘;算法库
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2013)13-2951-04
数据挖掘是一个从大量不完整的、冗余的、模糊的并且随机的实际应用的数据中提取潜在的有用的信息和未知知识的一个过程[1]。随着信息技术在社会中各个领域中的广泛应用,可以用数据挖掘进行提取的最初的数据也转变为较复合的、有组织结构或者半组织结构的内容,比如文本、图标、图片数据,甚至是网络中混杂的分布式数据[2]。在数据外挖掘系统中,挖掘算法具有非常重要的作用。一个有效的数据挖掘系统必须有各种各样的挖掘算法。通常来说,这些挖掘算法不能同时被开发,但是通过算法的发展和对应用的要求,它们也都不断地得到相当大的改进。
通过最新的数据挖掘算法的研究,在数据挖掘系统中不但要有专用的、可共享的和动态维护的算法库,而且还要在现存的算法中增加新的算法来改进系统[3]。难点在于传统的数据挖掘系统越来越适应于需求以至于很难再提升算法库。因此,研究如何根据不同的算法动态添加挖掘算法和自动生成输入输出接口,从而实现数据挖掘算法的自动调用是本文的重点。
Web服务的结构本质上是面向服务的架构(SOA),SOA框架被专门用于解决应用整合领域里的两个难题——异质性数据和易变性数据。在数据挖掘的算法库模块中引入web服务有利于实现挖掘混杂的数据源,同时,因为通过web服务封装了大量的数据挖掘算法,压缩了算法而节省了算法库,那么数据挖掘系统和挖掘算法联系就不用那么紧密,而且可以通过web服务在线调用挖掘算法,这样就能够使算法可以被重用,以及可以便利的动态管理算法库。
在最后,该文还介绍了用于数据挖掘系统的web服务技术,提出了基于web服务的挖掘系统的算法库模块的基本框架,并研究了基于XML技术的元数据的描述。
1 数据挖掘系统元数据的描述
在数据挖掘系统中,数据是一个非常复杂的资源,并且从结构数据到非结构数据中还有大量的各种各样的种类。我们可以把数据看成数据挖掘系统的操作基础。在数据挖掘的过程中,需要用到各种普通或者特殊的算法,这些算法可以由系统或者外部对象提供。提供可靠的算法库和生成数据挖掘系统的挖掘模式是数据挖掘系统中的重要部分。随着传统算法的持续改进和新算法的持续开发,数据挖掘系统需要通过确定的规范来存储和管理各种算法,同时各种类别的用户为了使用算法也需要一套特定的规范来形成队列。因此,在算法库的开发和维护过程中,它需要一个强大的动态管理功能。基于这个目的,算法描述和基本管理规范的编制就是开发算法库模块的关键问题。
对于数据挖掘系统来说,元数据是系统的核心部分。它的主要目的是描述数据的基本属性和为数据挖掘提供支持。建立和执行数据挖掘任务的整个过程都是在元数据的控制下进行的。因此,对元数据的有效管理可以使系统更加的稳固。通过使用XML语言对数据挖掘算法中的元数据进行描述有利于算法的管理,这样不但可以实现数据结构的灵活放缩,有效的实现数据、算法和借口之间的自由联系,而且解决了数据结构和数据应用紧密联系导致的对异质性数据源挖掘的问题。
2 管理模块算法的设计
将Web服务引入到数据挖掘系统中和将数据挖掘算法封装到Web服务中都需要一个算法管理模块来统一管理封装到Web服务的数据挖掘算法[3-4]。通过逻辑和基于Web服务概念的分析,我们可以把算法管理模块看成与由算法发行子模块和算法搜寻子模块构成的算法寄存中心共同协作来完成操作。
算法寄存中心承担了算法寄存和算法搜寻的任务,它包括了所有的由算法提供者发型的算法的基本信息。算法寄存中心接受算法发行子模块的申请,为算法产生WSDL(WebServicesDescriptionLanguage)文档,并保存挖掘算法的所有的其他信息(包括服务名称和算法的URL地址等),这样就能为算法寄存中心所用。同时算法寄存中心还接收算法搜寻子模块的申请来查询算法库中满足用户条件的被发行的算法并返回相关信息[5]。算法发行子模块主要提供发行接口,并且算法发行者就可以将算法封装到web服务中。它最主要的功能是接收算法提供者
您可能关注的文档
最近下载
- SY_T 7494-2020 油气田用起泡剂实验评价方法.pdf VIP
- 人机工程学函授真题201307.doc VIP
- 人机工程学复习题人机工程学复习题.doc VIP
- 海信模块机-Hi-Mod模块化空气源热泵(冷水)机组低温强热系列.pdf VIP
- 猪大肠杆菌病病原学研究进展.docx VIP
- WABO CRETE Ⅱ弹性混凝土在桥面铺装层维修中的应用.pdf VIP
- BS EN 12516-2-2014 工业用阀门 外壳设计强度 第2部分:钢制阀壳的计算方法(中文版).pdf
- 人机工程学应用 自考课程大纲.pdf VIP
- 前台接待流程.pptx VIP
- 综合医院中医药工作专项推进行动方案.pdf VIP
文档评论(0)