数据准备:从海量资源到干净数据处理流程.pdfVIP

数据准备:从海量资源到干净数据处理流程.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

本文由简悦SimpRead转码,原文地址

本,我将为你介绍数据挖掘操作流程的第二个环节,准备数据。

在对业务和数据有了清醒的认识,你就要开始收集、处理数据了。这个环节看起来好像是一个非核

心环节,实际上在整个过程中却是最重要、最耗时的环节。

就如2008年奥运会的成功离不开城市规划、场馆建设、招募等一系列准备工作一样,数据

准备在数据挖掘中同样也承担着这样一个重要的角色。原始的数据通常不可能跟你的算法所适配,而且

其本身也存在着各种各样的问题,如不够准确、格式多样、部分特征、不统一、特殊数据、错

误数据等,这些问题都将在一定程度上影响你后续算法模型的训练和实施。

为了避免上述,我将带你一步步避坑,准备出合适模型的数据。

找到数据

在一个公司中,数据往往会有很多的存在形式,比如它们所属的业务部门不一样,使用的数据库类型就

可能不一样,数据的方式也有可能不一样等问题。所以,对于你要做的项目来说,就可能需要很多

不同的数据。你要知道每个项目需要什么数据,并从哪里获取。尽管在一些大的公司存在数据平台

部门、数据仓库部门,但这仍然不能保证你所需要的数据只用法就能获取到。所以在这一步,可

能需要你掌握一些数据库的使用技巧,如常用的关系型数据库MySQL、大数据使用的Hbase、Hive、

搜索引擎数据库ES、内存数据库Redis,还有图数据库,如Neo4j或者JanusGraph等,甚至还要跟各

种业务部门沟通协商以获取数据。数据库的内容我就不在本中一一介绍了,如果感你可以去官

网深入了解。

当你从各种地方收集到所需要的数据,是能够把它们进行简单的整理,如用统一的id把数据整

合在一起等,以便后面查询和使用。

准备好需要的数据后,就要对它们进行一系列的加工,从而达到后期训练模型的要求。

数据探索

在该阶段,为了尽可能获得足够多的特征,你要对数据进行分析、预处理以及转换等基础工作,以构建

出更加贴合你所要预测结果的特征,这使得数据维度大量扩展,所以我把这个环节叫作把数据变多或者

数据升维。

假设你要做一个给内容分类的项目,已经从数据仓获取了内容、标题、等数

据,并从运营部门获得了运营给这些标注的分类数据。这时候你要做的就是把数据变多,可以进行

如下操作:

把内容进行分词,这样就获得了一个分词后的字段;

把分词后的内容进行的统计,看看哪个词出现得;

同样地把标题进行分词,进行的统计;

还可以对的词性进行标注,获得一份词性数据;

你可以找到一些特殊的词,比如名人的名字、机构的名字、地点的名字等一些信息。

通过这些处理,可以看到你的数据是否存在问题,比如异常值、数据的偏差、,等等。如果是数值

型的数据,还可以通过计算均值、方差、中位数、差、最大值、最小值等去探索、扩展。

有了足够多的数据,接下来就要对其进行整理,提取对项目最有用的部分。

数据

ThisarticleistranscodedbyJianYueSimpRead,originaladdress

Inthisclass,Iwillintroduceyoutothesecondstepofthedataminingoperationprocess,

preparingdata.

Afteryouhaveaclearunderstandingofthebusinessanddata

您可能关注的文档

文档评论(0)

187****4471 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档