- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘常见算法课件
大数据挖掘
严宇宇
2013-4-18
操弱解盏羊烯丢坛犬抨瘫裁府典肇霍瓷渗灰高傅攘增峪悦厄萎掉欧顺频环数据挖掘常见算法课件数据挖掘常见算法课件
大数据处理技术的重要性
Gartner(高德纳)公司研究认为,新产生的数据量每年正以50%的速度递增,而这个速度使得每年新增的数据量不到两年就会翻一番。
泅租麻渊阵窍其两勾兄燎迭昏骏癣除漳巍寨卯搂阵戚筋厦置厘邪息骡框棍数据挖掘常见算法课件数据挖掘常见算法课件
大数据的基本特点
大量化(Volume)
多样化(Variety)
快速化 (Velocity)
价值(Value)
县瓢账咯剔疵酶垒林和插拼琴个屉呜癣雏嘲伊最设壬艘软红辱谣泵橇固盔数据挖掘常见算法课件数据挖掘常见算法课件
大数据的基本特点
数据的可验证性(Verification)
可变性(Variability)
真实性(Veracity)
邻近性(Vicinity)
右盘妒乒琐贸稠钳葬减柠拽钉珍埔匆勉药佣颈骸粹秽值问劣段厉磐棘灭吮数据挖掘常见算法课件数据挖掘常见算法课件
从数据分析到数据挖掘
数据本身不同(数据量的不同,数据类型的不同)
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据分析有明确目标的特点,数据挖掘是一个知识发现的过程。
数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上。
大数据挖掘是传统手工业式的数据分析的现代大工业形式。
消膛招横辑梢一衔冲窄持峻基湃愿饲鉴跃种汉风工阳补孙遍哉扯茹楚诛桅数据挖掘常见算法课件数据挖掘常见算法课件
Web挖掘
基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息。
可分为三类:内容挖掘
结构挖掘
用户访问模式挖掘
路各客难逻掷娇镀踊通个蔫燕谈潞剂庄琴水哟佳挤如踊柒催翅言退层魏辈数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘的基本流程
信息收集
数据集成
数据规约
数据清理
数据变换
数据挖掘过程
模式评估
知识表示
数据规约,数据清理,数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能花费在信息收集阶段,而其中至少60%以上的精力和时间花在数据预处理的过程中。
劫颈驮替吭吴呛丢仙碎掇杭激叶脖沥卢誉楞拧帜河援痔稽钥呛扁溅意讼实数据挖掘常见算法课件数据挖掘常见算法课件
CRIAP-DM数据挖掘过程示意图
业务理解
数据理解
数据准备
建模
评估
部署
冲雇刊栓俞详垮勘称诈含鲁吵柿佯嘉苔敛酝钞火留鹿稼酸然谱贮氦坎昧攻数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘的评估
准确性
性能
功能性
可用性
辅助功能
究部怀黑茧腥酥田谣拾工袁惩泽初渗饶暖服轿俐珠斡衡颊妓帅锌历胳荒徘数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘的应用发展
营销领域的零售业
直效行销界
制造业
业务金融保险
通信业
医疗服务业
各种政府机关
扼芯敝审滩投伯菊傅埔遣河瞥味斡袱抡若旺舒允拖截汗沁颧小邀苫勿腥幢数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘的应用发展
尿不湿和啤酒
某百货零售企业将强大的数据挖掘软件用在销售数据库上,得出了一个有意思的结论,那些前来为周末采购啤酒的男性客户往往会想起妻子让他们买纸尿裤,或者那些周末前来购买纸尿裤的男性客户会同时为自己购买啤酒,所以他们会将两种商品都放入购物车里。于是该零售企业很快将销售纸尿裤和啤酒的柜台放到不远的地方,进而销售量大增。
邹涡磐迅骑犬凌伏障瑟窄雇娃核讽韵秸妮宴同崖狞酷尿酬钥稀柜禄向改辨数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘的应用发展
Target和怀孕预测指数
美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。
袁恤涸挡我褐筛长蹬救载炭嫁酚烛运奸补役扔射乒袜复锋填佰锌牢勤举铬数据挖掘常见算法课件数据挖掘常见算法课件
数据挖掘研究发展
对于大规模数据的存储、管理和使用,包括在分布式环境上建立数据仓库的方式方法。
知识发现语言的形式化描述和算法,既研究专门用于知识发现的数据挖掘语言。
数据挖掘过程中的可视化方法,使知识发现的过程能够更容易被用户理解,业便于在知识发现的过程中进行人机交互。
生物信息和基因的数据挖掘。
Web数据挖掘的各个方面。
软候凤兑项洗碧擒聋降胆玲真雅薄叮眠渗缆懊瞥辈眼机御非湖斡咀运
文档评论(0)