数据挖掘的三大要素.doc

下载文档

44
0
约5.41千字
约 8页
2018-04-20 发布于湖南
举报
版权申诉
保障服务

数据挖掘的三大要素.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

盘点：数据挖掘的三大要素论文类别：计算机?-?互联网研究上传时间：2014/5/22?19:23:00论文作者：未知 ? 　　(中讯)我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅薄的心得。不管怎么样，欢迎指教和讨论。　　另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。　　数据挖掘中的三种角色　　在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。　　Data?Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则，并且为了数据模型的找不同场景的Training?Data。另外，这些人也是把一些脏数据洗干净的的人。　　Research?Scientist：研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种，就像《生活大爆炸》里的那个Sheldon一样。这些人基本上玩的是数据上的科学　　Software?Developer：软件开发工程师。主要是把Scientist建立的数据模型给实现出来，交给Data?Analyzer去玩。这些人通常更懂的各种机器学习的算法。　　我相信其它公司的做数据挖掘或是机器学习的也就这三种工作，或者说这三种人，对于我来说，　　最有技术含量的是Scientist，因为数据建模和抽取最有意义的向量，以及选取不同的方法都是这类人来决定的。这类人，我觉得在国内是找不到的。　　最苦逼，也最累，但也最重要的是Data?Analyzer，他们的活也是这三个角色中最最最重要的(注意：我用了三个最)。因为，无论你的模型你的算法再怎么牛，在一堆烂数据上也只能干出一堆垃圾的活来。正所谓：Garbage?In，?Garbage?Out！但是这个活是最脏最累的活，也是让人最容易退缩的活。　　最没技术含量的是Software?Developer。现在国内很多玩数据的都以为???法最重要，并且，很多技术人员都在研究机器学习的算法。错了，最重要的是上面两个人，一个是苦逼地洗数据的Data?Analyzer，另一个是真正懂得数据建模的Scientist！而像什么K-Means，K?Nearest?Neighbor，或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法，都很成熟了，而且又不是人工智能，说白了，这些算法在机器学习和数据挖掘中，似乎就像Quick?Sort之类的算法在软件设计中基本没什么技术含量。当然，我不是说算法不重要，我只想说这些算法在整个数据处理中是最不重要的。　　数据的质量　　目前所流行的Buzz?Word——大数据是相当误导人的。在我眼中，数据不分大小，只分好坏。　　在处理数据的过程中，我第一个感受最大的就是数据质量。下面我分几个案例来说明：　　案例一：数据的标准　　在Amazon里，所有的商品都有一个唯一的ID，叫ASIN——Amazon?Single?Identify?Number，这个ID是用来标识商品的唯一性的(来自于条形码)。也就是说，无论是你把商品描述成什么样，只要ASIN一样，这就是完完全全一模一样的商品。　　这样，就不像淘宝一样，当你搜索一个iPhone，你会出现一堆各种各样的iPhone，有的叫“超值iPhone”，有的叫“苹果iPhone”，有的叫“智能手机iPhone”，有的叫“iPhone白色/黑色”……，这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点：　　1)用户体验不好。以商品为中心的业务模型，对于消费者来说，体验明显好于以商家为中心的业务模型。　　2)只要你不能正确读懂(识别)数据，你后面的什么算法，什么模型统统没用。　　所以，只要你玩数据，你就会发现，如果数据的标准没有建立起来，干什么都没用。数据标准是数据质量的第一道关卡，没这个玩意，你就什么也别玩了。所谓数据的标准，为数据做唯一标识只是其中最最基础的一步，数据的标准还单单只是这个，更重要的是把数据的标准抽象成数学向量，没有数学向量，后面也无法挖掘。　　所以，你会看到，洗数据的大量的工作就是在把杂乱无章的数据归并聚合，这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是：　　聪明的人在数据产生之前就定义好标准，并在数据产生之时就在干数据清洗的工作。　　一般的人是在数据产生并大量堆积之后，才来干这个事。　　另外，说一下Am