- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析和内存计算第4讲数据挖掘技术概述李国良清华大学计算机系提纲数据挖掘概览数据预处理分类(Classification)聚类(Cluster)关联规则(AssociationRule)回归(Regression)数据挖掘概览What?数据挖掘的定义Why?数据挖掘的动机How?哪些数据可以用来挖掘?数据挖掘的主要内容数据挖掘定义什么是数据挖掘(DataMining)?Extractionofinteresting(non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdata其他称谓:Knowledgediscovery(mining)indatabase(KDD),data/patternanalysis,businessintelligence,decision-supportsystem,knowledgeextraction,dataarcheology,datadredgingandinformationharvestingetc.模式有效性度量SimplicityE.g.,(association)rulelength,(decision)treesizeCertaintyE.g.,confidence,P(A|B)=#(AandB)/#(B),classificationreliabilityoraccuracy,rulestrength,etc.UtilityPotentialusefulness,e.g.,support(association),noisethreshold(description)NoveltyNotpreviouslyknown,surprising(usedtoremoveredundantrules)为何需要数据挖掘?数据量大缺乏理论知识数据挖掘可以帮助产生新的假说或者使数据变得有意义为何需要数据挖掘?Wearedrowningindata,butstarvinginknowledgeDataexplosion:Automateddatacollectiontoolsandmaturedatabasetechnologyleadtotremendousamountsofdataaccumulatedand/ortobeanalyzedindatabases,datawarehouses,andotherinformationrepositories.数据挖掘的意义股票趋势分析智能交通数据挖掘应用银行美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等电子商务网上商品推荐;个性化网页;自适应网站…生物制药、基因研究DNA序列查询和匹配;识别基因序列的共发生性…电信欺诈甄别;客户流失…保险、零售数据挖掘应用神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析Association市场组合分析套装产品分析目录设计交叉销售数据挖掘步骤数据预处理数据清理(消除噪音或不一致数据,补缺)数据集成(多种数据源可以组合在一起)数据变换(规范化)数据规约(数据简化)数据挖掘算法(使用智能方法提取数据模式)分类、聚类、关联分析、回归预测、文本挖掘质量评估(识别提供知识的真正有趣模式)知识表示(可视化和知识表示技术)数据质量:为何需要数据预处理?数据质量衡量:准确度:correctorwrong,accurateornot完整度:notrecordedunavailable一致性:somemodifiedbutsomenot,dangling时效性:timelyupdate?可信度:howtrustablethedataarecorrect?可解释性:howeasilythedatacanbeunderstood?数据挖掘预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据清洗脏数据:例如设备错误,人或者机器错误,传输错误等不完整
您可能关注的文档
最近下载
- ICD-9-CM-3手术与操作国家临床版亚目表.xlsx VIP
- 图形创意(第二版)林家阳 高教 全套课件.ppt
- Unit 2 Helping at home 第1课时 Get ready(教学课件)英语外研版三起四年级上册(新教材).ppt
- 大数据精准营销PPT课件.pptx VIP
- 天线与电波传播课件(第六章)电波传播概论.ppt VIP
- 公司目视化管理手册..pptx VIP
- 非遗工艺数字化呈现的2025年文化传承项目阶段汇报PPT.pptx VIP
- 演讲与口才中职全套完整教学课件.pptx
- CNG及LNG加气站风险管控资料.doc VIP
- 一种拉曼-荧光双模生物传感器及其制备方法与其在miRNA检测中的应用.pdf VIP
文档评论(0)