- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SQL Server 2005数据挖掘系统设计方案
基于SQL Server 2005数据挖掘系统设计方案
摘要:本文描述了数据挖掘的基本知识,并且介绍了SQL Server 2005数据挖掘平台和基本功能,笔者结合自己的工作实践经验提出并构建出基于SQL Server 2005的数据挖掘系统。
关键词:数据挖掘系统;功能;SQL Server 2005;系统设计
中图分类号:TP302文献标识码:A文章编号:1007-9599 (2012) 06-0000-02
随着科技的进步,技术的创新,以及越来越多的数据被储存在数据库和数据仓库之中,计算机在各个领域得到了广泛应用,信息化和数据库系统得到飞速发展,人们运用信息数字化技术大大提高了处理和收集数据、整理数据的能力。如何有效管理、清洗、组织、处理数据并对各种数据进行归纳分析变成了急需解决的难题,在这种前提背景下,就迫切需要把这些数据通过数据挖掘系统转换成有用的信息和知识,以便更好的为人们服务。
很久以来人们仅仅运用从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、现存的、潜在有用的信息,并对其进行分析和决策他们集中研究调用知识和查询问答,并不具有智能系统。然而本文运用当前比较流行的SQL Server 2005数据挖掘技术系统,能够弥补智能系统缺失的不足。
一、数据挖掘系统简介
(一)数据挖掘的含义
数据挖掘就是应用一系列统计学、计算机等技术从大量的、不完全的、模糊的、混乱的、随机的数据中提取隐含的、潜在的、人们事先不知道的但感兴趣的、有用的信息和知识的过程[1],是统计学、数据库技术和人工智能技术的完美结合体。
(二)数据挖掘操作流程
从众多的、模糊的数据源中发现有用的、潜在的、感兴趣的模型、准则、线索等知识是一个系统的复杂的过程。第一,选定合适的数据源(根据对应的挖掘目标和任务);第二,清洗选定的数据;第三,选择恰当的数据挖掘方法挖出有用的数据。当然这不是一个简易的过程,而是一个利用无数次反馈反复的过程,利用反复逐步完善挖掘结果,以获取更多有用的信息和数据。[2]
概括的说,数据挖掘是一个多层次、多流程、多步骤的处理过程,其常规的运行流程如图1所示:
图1 典型数据挖掘系统的结构
整个结构流程主要包括由以下几部分[3]:
1.数据源是由数据库、万维网、数据仓库和其他类型数据组成。
2.对数据进行再加工可以通过数据的清理、集成实现。
3.数据库主要用来完成数据挖掘系统提交的相关运算请求。
4.数据挖掘引擎用来完成分类、关联规则、聚类、预测、奇异值分析等任务。
5.模式评价模块主要应用用户偏好或领域知识过滤挖掘到的有用知识,从而快速定位有用的信息和知识。
6.用户界面模块是用户与数据挖掘系统之间的交互平台。
二、SQL Server 2005数据挖掘功能的简述
(一)SQL Server 2005数据挖掘功能简介
众所周知其他大多数据挖掘系统要求使用者具有较高的专业知识水平,如要求精通数学、分析学、统计学等专业理论知识,但SQL Serve 2005数据挖掘系统的出现彻底改变了这一门槛高的难题,它并非是一个独立应用程序,而是统计学、数据库技术和人工智能技术的完美结合体,也是开发智能应用程序的平台。SQL Server 2005数据挖掘功能的组件主要包括集成服务(SSIS)和分析服务(AS),下面分别作介绍。
(二)集成服务功能简介[4]
SQL Server 2005中的集成服务提供的功能有数据抽取、转换、下载、清洗等,大大缩短了数据处理的时间和精简了数据预处理阶段的工作。控制流和数据流是SSIS提供的两种基本工作流。“包”就是装载SSIS工作流的容器,是SSIS项目中最基本的分布和执行单位。一个SSIS项目可以有多个包,每个包只能含有一个控制流,但可以包含一个或多个数据流。控制流上每个节点就是一个独立的任务,这些任务按照事先定义的顺序依次执行,所以也称之为任务流。数据流是专门针对数据挖掘操作的工作流,它包含于任务流中,要使用数据流,必须先定义任务流中的数据流任务,数据流也被称为管道。
(三)分析服务功能简介
SQL Server 2005的一个非常重要组件是SQL Server Analysis Services,分析服务功能采用开放的体系结构,无缝集成了多种符合OLE DB for DM的数据挖掘算法,并且提供了数据挖掘解决方法。决策树算法、聚类算法、关联算法、时间序列算法、贝叶斯算法、序列聚类算法、线性回归算法、神经网络算法、逻辑回归算法等这几种常见的数据挖掘算法是分析服务系统提供给使用者的。[5]除此之外,使用者还可以根据自己的兴趣或者需要嵌入其他的算法。
文档评论(0)