掌握AI在大数据领域的前沿应用_光环大数据培训11.pdfVIP

掌握AI在大数据领域的前沿应用_光环大数据培训11.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
掌握AI在大数据领域的前沿应用_光环大数据培训11

光环大数据--大数据培训知名品牌 掌握AI 在大数据领域的前沿应用_光环大数据培训 近日,全球技术学习技术大会首次在京举行,阿里巴巴数据技术及产品部资 深算法专家杨红霞(鸿侠)作为特邀嘉宾出席并发表主题演讲。鸿侠从什么是数据 新能源说起,接着介绍了阿里目前比较成功的两款数据产品,一个是是自动化标 签生产,另外一个是大规模分布式知识图谱,以及在此之上的一些重要应用。最 后是她对机器学习和人工智能技术对数据新能源产业中有效落地的一些建议和 期望。 下面是基于鸿侠现场演讲内容摘要: 如果大家对阿里巴巴的新闻比较关注,最近可能会频繁听到阿里巴巴谈到 “五新”这个词,“五新”中的其中一个概念是新能源。其实新能源就是大数据 本身。技术、数据和算法三个方面结合在一起,才可以把数据真正用起来。 大家都知道,Google 的数据量很大,但是它的数据源本身其实比较单一。 以Google search,Google map 等为主导。再来看看 Facebook,它更多的是社 交行为数据,缺少出行数据、 浏览器数据、或者类似优酷的视听数据。但是, 对于阿里来说,上述的这些数据我们都有。我们面临的极大挑战是:怎么样有效 的把这些全域数据融合在一起。 首先我们需要把数据有效地收集起来。把数据有效地收集、存储起来之后, 接着要做的就是怎么通过算法把这些数据打通,并且真正有效、智能地把这些数 据提炼出来。 这是阿里的一个生态体系图。最底层是阿里云,这是我们的一个计算存储框 架。上面是阿里妈妈,阿里妈妈是负责整个阿里巴巴计算广告的一个部门,再上 光环大数据 光环大数据--大数据培训知名品牌 面是菜鸟、支付宝和蚂蚁金服。然后是与电商业务相关的,像淘宝网、天猫、聚 划算等等,或者是跟文娱相关的,优酷土豆,还有像阿里旅行,口碑之类的业态。 阿里巴巴数据中台要做的事情是什么呢 举一个最简单的例子,之前有一个 比较火的电视剧《三生三世》。《三生三世》火热上映的时候,与之相关的商品元 素,比如饮食或者穿戴之类的商品,也会瞬间在淘宝网上火爆起来。那么如果我 提前就知道某一类人群是《三生三世》的粉丝,我就可以在淘宝网上做非常高效 的、准确的定位推广。阿里数据要做的是:把数据真正打通,深度挖掘数据的价 值,为业务创新应用提供数据决策基础和依据。 下面具体介绍一下数据融合的技术框架。因为在真正进入算法之前,我们一 定要对数据进行非常认真、仔细地进行清洗过程。俗话说,如果你的数据不清洗, 其实就是“learn trash from trash”。所以数据本身一定要做得非常干净。 首先来看一下架构图,第一个数据层中有各种各样的数据,比如有消费数据, 有广告数据,出行数据等等。把这些数据层经过有效结合在一起之后,接下来得 到这种特征层的提取。在阿里数据内部,大概有这样几个比较抽象的维度:像账 号设立的静态特征,电商行为的特征,或者设备的特征等等。 在特征层之上,我们会有模型层, 这里面有基于业务规则的模型,也有其 他的例如异常检测,有监督或者无监督的学习,然后特征的联合校验等模型。因 为我们的数据源非常多,因此我们也可以通过部分的数据源验证另外一个数据源, 看数据的增长或者留存是否处于一个正常范围。另外还有一些比较好的方法,比 如基于Graph 的一些算法,实时的反作弊算法等等。在算法层之上,就是评估层。 在评估层内,我们可以判断留下来的数据是否是真正有效的数据。 在上述这些数据层的上面,会有一个应用层,也同时会抽象出一些产品来帮 助内部员工或者外部商家进行使用。所以,整个数据中台实际上是从底到上对数 光环大数据 光环大数据--大数据培训知名品牌 据进行清洗的一个架构。 当我们有了非常干净的数据之后,我们要做的就是把数据打通。我刚才说了, 阿里生态体系会呈现出几百个不同的数据源,这些数据源本身的数据量非常大, 收集模式也各不相同。那么我们是如何进行数据之间的融通的呢 上

文档评论(0)

bzhuangrduh7 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档