- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘系统研究与讨论报告.ppt
数据挖掘系统研究报告
报告人:朱建秋
2001年10月08日
提纲
数据挖掘概述
数据挖掘文化
数据挖掘过程
数据挖掘系统
数据挖掘系统的发展趋势
实验室研究方向
数据挖掘概述
本文观点来自Robert Grossman
关于作者:the President of Magnify, Inc. (Chicago, Ill.) and the Director of the National Center for Data Mining at the University of Illinois at Chicago. He has been a leader in the development of high-performance and wide area data mining systems for over 10 years.
数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构
数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型
数据挖掘文化
知识发现文化(KD)
输出的是规则
预言模型文化(PM)
输出的是预言模型
共同点
两种文化输入的都是学习集(learning sets)
目的都是尽可能多的自动化数据挖掘过程
数据挖掘过程并不能完全自动化,只能半自动化
数据挖掘文化
举例说明
假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组
一个数据挖掘系统可能抽取出一条规则,比如:“一天至少接到两个电话的用户有低的更换率”。
继续这个例子,一个预言模型可能给每个用户分配两个分数:一个分数在0和1之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。
数据挖掘过程
步骤
步骤名称
描述
1
数据仓库
Data Warehouse
数据仓库管理用于决策支持的数据。在该步骤内,数据从操作型系统以及第三方的数据源聚集、清洗、以及转换到数据仓库中,供决策分析使用。
2
数据挖掘
Data Mining
在这个步骤中,数据从数据仓库抽取出来,用来产生预言模型或者规则集。该步骤可以自动化。
3
预言模型
Predictive Modeling
在该步骤内,为了产生一个优化的模型,一个或多个预言模型被选择或者联合。这些预言模型可能从数据挖掘系统产生,也可能从统计模型中产生,或者通过第三方购买 。
4
预言记分
Predictive Scoring
在这个步骤中,选择的预言模型对操作型数据或者交易数据进行记分(score) 。
数据挖掘系统
数据挖掘系统
第一代数据挖掘系统
支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valued data),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。
第二代数据挖掘系统
目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。
数据挖掘系统
接口
第二代数据挖掘系统提供数据仓库和数据挖掘系统之间的有效的接口
第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口
数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。
PMML是数据挖掘系统与预言模型系统之间的一个标准接口。
数据挖掘系统
实施策略
第一代数据挖掘系统,直接将需要挖掘的数据一次性调入内存,这些系统的成功依赖于团队和数据的质量
如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,因此第二代数据挖掘系统是必须的。不幸的是,目前的数据仓库设计是方便OLAP操作的,而不是数据挖掘应用。这意味着真正的第二代数据挖掘系统必须使用自己专门的数据管理系统,作为弥补目前数据库及数据仓库管理系统的缺陷,直到数据库和数据仓库厂商对合适的数据挖掘原语提供充分的支持。第二代数据挖掘系统应该能够产生PMML或者类似PMML的开放格式,使得挖掘结果能够与操作型系统集成。
数据挖掘系统
实施策略
如果使用多个预言模型,或者预言模型需要经常修改,那么应该选择正在出现的第三代数据挖掘系统,以支持这些功能,当然第三代系统也能与数据库或者数据仓库集成。第三代数据挖掘系统和预言模型系统的一个重要的优点是由数据挖掘系统产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模块相联合提供决策支持的功
文档评论(0)