数据挖掘的三大要素.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
盘点:数据挖掘的三大要素 论文类别:计算机?-?互联网研究 上传时间:2014/5/22?19:23:00 论文作者:未知 ?   (中讯)我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。不管怎么样,欢迎指教和讨论。   另外,注明一下,这篇文章的标题模仿了一个美剧《权力的游戏:冰与火之歌》。在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。   数据挖掘中的三种角色   在Amazon里从事机器学习的工作时,我注意到了Amazon玩数据的三种角色。   Data?Analyzer:数据分析员。这类人的人主要是分析数据的,从数据中找到一些规则,并且为了数据模型的找不同场景的Training?Data。另外,这些人也是把一些脏数据洗干净的的人。   Research?Scientist:研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种,就像《生活大爆炸》里的那个Sheldon一样。这些人基本上玩的是数据上的科学   Software?Developer:软件开发工程师。主要是把Scientist建立的数据模型给实现出来,交给Data?Analyzer去玩。这些人通常更懂的各种机器学习的算法。   我相信其它公司的做数据挖掘或是机器学习的也就这三种工作,或者说这三种人,对于我来说,   最有技术含量的是Scientist,因为数据建模和抽取最有意义的向量,以及选取不同的方法都是这类人来决定的。这类人,我觉得在国内是找不到的。   最苦逼,也最累,但也最重要的是Data?Analyzer,他们的活也是这三个角色中最最最重要的(注意:我用了三个最)。因为,无论你的模型你的算法再怎么牛,在一堆烂数据上也只能干出一堆垃圾的活来。正所谓:Garbage?In,?Garbage?Out!但是这个活是最脏最累的活,也是让人最容易退缩的活。   最没技术含量的是Software?Developer。现在国内很多玩数据的都以为???法最重要,并且,很多技术人员都在研究机器学习的算法。错了,最重要的是上面两个人,一个是苦逼地洗数据的Data?Analyzer,另一个是真正懂得数据建模的Scientist!而像什么K-Means,K?Nearest?Neighbor,或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法,都很成熟了,而且又不是人工智能,说白了,这些算法在机器学习和数据挖掘中,似乎就像Quick?Sort之类的算法在软件设计中基本没什么技术含量。当然,我不是说算法不重要,我只想说这些算法在整个数据处理中是最不重要的。   数据的质量   目前所流行的Buzz?Word——大数据是相当误导人的。在我眼中,数据不分大小,只分好坏。   在处理数据的过程中,我第一个感受最大的就是数据质量。下面我分几个案例来说明:   案例一:数据的标准   在Amazon里,所有的商品都有一个唯一的ID,叫ASIN——Amazon?Single?Identify?Number,这个ID是用来标识商品的唯一性的(来自于条形码)。也就是说,无论是你把商品描述成什么样,只要ASIN一样,这就是完完全全一模一样的商品。   这样,就不像淘宝一样,当你搜索一个iPhone,你会出现一堆各种各样的iPhone,有的叫“超值iPhone”,有的叫“苹果iPhone”,有的叫“智能手机iPhone”,有的叫“iPhone白色/黑色”……,这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点:   1)用户体验不好。以商品为中心的业务模型,对于消费者来说,体验明显好于以商家为中心的业务模型。   2)只要你不能正确读懂(识别)数据,你后面的什么算法,什么模型统统没用。   所以,只要你玩数据,你就会发现,如果数据的标准没有建立起来,干什么都没用。数据标准是数据质量的第一道关卡,没这个玩意,你就什么也别玩了。所谓数据的标准,为数据做唯一标识只是其中最最基础的一步,数据的标准还单单只是这个,更重要的是把数据的标准抽象成数学向量,没有数学向量,后面也无法挖掘。   所以,你会看到,洗数据的大量的工作就是在把杂乱无章的数据归并聚合,这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是:   聪明的人在数据产生之前就定义好标准,并在数据产生之时就在干数据清洗的工作。   一般的人是在数据产生并大量堆积之后,才来干这个事。   另外,说一下Am

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档