- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CH1--第2数据挖掘软件发展分析
四、数据挖掘应用 调查报告(2002.6.3-6.16) 四、数据挖掘应用 银行 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。 分析客户使用分销渠道的情况和分销渠道的容量 ;建立利润评测模型;客户关系优化;风险控制等 电子商务 网上商品推荐;个性化网页;自适应网站… 生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 … 电信 欺诈甄别;客户流失… 保险、零售。。。。。。 四、数据挖掘应用 数据挖掘 客 户 分 析 析 基 分 因 其他 保险客户 证券客户 银行客户 电信客户 零售客户 信用卡 储蓄卡 存折 按揭 借贷 人类基因 植物基因 动物基因 特殊群体基因 基因序列 基因表达谱 基因功能 基因制药 ………... 数据挖掘中国内地市场规模未来五年内将达百亿 * * 一、数据挖掘概念----定义 数据挖掘--从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合。 数据挖掘与统计学 数据挖掘与人工智能 数据挖掘与数据库技术 数据挖掘与KDD 一、数据挖掘概念----原由 国民经济和社会的信息化 社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史 因此政府提出 “信息化”和“发展软件产业” 一、数据挖掘概念----原由 数据挖掘 数据库越来越大 有价值的知识 可怕的数据 一、数据挖掘概念----原由 数据爆炸,知识贫乏 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据 知识 决策 模式 趋势 事实 关系 模型 关联规则 序列 目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置 金融 经济 政府 POS. 人口统计 生命周期 一、数据挖掘概念----发展 1989 IJCAI会议: 数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD国际会议 (KDD’95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’1999-2002 会议,以及SIGKDD Explorations 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc. 一、数据挖掘概念----技术 技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘技术 关联分析 序列模式 分类(预言) 聚集 异常检测 二、数据挖掘软件的发展 代 特征 数据挖掘算法 集成 分布计算模型 数据模型 第一代 作为一个独立的应用 支持一个或者多个算法 独立的系统 单个机器 向量数据 第二代 和数据库以及数据仓库集成 多个算法:能够挖掘一次不能放进内存的数据 数据管理系统,包括数据库和数据仓库 同质、局部区域的计算机群集 有些系统支持对象,文本和连续的媒体数据 第三代 和预言模型系统集成 多个算法 数据管理和预言模型系统 intranet/extranet网络计算 支持半结构化数据和web数据 第四代 和移动数据/各种计算设备的数据联合 多个算法 数据管理、预言模型、移动系统 移动和各种计算设备 普遍存在的计算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点 二、数据挖掘软件的发展 第一代数据挖掘软件 特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统() 缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。 二、数据挖掘软件的发展 第一代数据挖掘软件 CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则
文档评论(0)