第八组数据挖掘精要.ppt

下载文档 降价啦

1
0
约3.33千字
约 46页
2016-05-27 发布于湖北
举报
版权申诉
保障服务

第八组数据挖掘精要.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(3) 聚类　数据库中的记录可被化分为一系列有意义的子集，即聚类。例如：将申请人分为高度风险申请者、中度风险申请者、低度风险申请者。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初，Mchalski提出了概念聚类技术，其要点是，在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而避免了传统技术的某些片面性。例如：市场销售: 帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；保险公司: 对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户； (4)分类按照分析对象的属性、特征，建立不同组来描述事物。例如银行部门根据以前的数据将客户分成了不同类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。例如：把客户分为高风险客户和低风险客户 (5) 预测　　把握分析对象的发展规律，对未来的趋势做出预见。数据挖掘自动在大型数据库中寻找预测性数据，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子：市场预测问题。数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。(例如，股票。从报表等预测其不久破产) (6) 偏差的检测　　数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减少以后经营的风险。（如开始几次额度不大，信誉很好，突然一次额度很大）偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。数据挖掘的各项功能不是独立存在的，在数据挖掘中相互联系，发挥作用。电信：流失银行：聚类（细分）, 交叉销售百货公司/超市：购物篮分析（关联规则）保险：细分，交叉销售，流失（原因分析）信用卡：欺诈探测，细分电子商务：网站日志分析（提问）税务部门：偷漏税行为探测警察机关：犯罪行为分析医学：医疗保健英国电信需要发布一种新的产品，需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100％电信 GUS日用品零售商店需要准确的预测未来的商品销售量，降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8% 零售商店美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作，为纳税人提供更迅捷、更准确的服务税务局金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国商业银行是发达国家商业银行的典范，许多地方值得我国学习和借鉴。（美国的老大地位） * 小组成员：李凯、姚树启、蔺友杰、李雪冬人工智能 ----------数据挖掘 1.1 数据挖掘的发展背景 1.2 数据挖掘定义 1.3 数据挖掘过程 1.4 数据挖掘功能 1.5 数据挖掘应用 1.6 数据挖掘发展人类已进入一个崭新的信息时代，数据库中存储的数据量急剧膨胀数据库急剧膨胀大量信息在给人们带来方便的同时也带来了一大堆问题：信息过量，难以消化信息真假难以辨识信息安全难以保证信息形式不一致，难以统一处理数据爆炸但知识贫乏随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。数据挖掘产生为了从海量数据库和大量繁杂信息中提取有价值的知识，进一步提高信息的利用率产生了一个新的研究方向：基于数据库的知识发现（Knowledge Discovery in Database），以及相应的数据挖掘（Data Mining）理论和技术的研究(侯老师，胡博士，自己)(搞预测很有前途，邵伟华；易经，易学) 数据矿山信息金块数据挖掘工具 KDD的出现基于数据库的知识发现（KDD）一词首次出现在1989年举行的第十一届AAAI学术会议上。 1995年在加