基于大数据平台的数据挖掘的研究与应用.pptVIP

基于大数据平台的数据挖掘的研究与应用.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据平台的数据挖掘的研究与应用 曹水根 目录 大数据是什么? 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。 2)Variety(多样性):即大数据包括各种格式和形态的数据。 3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。 4)Veracity(准确性):即处理的结果要保证一定的准确性。 5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 数据挖掘是什么? 研究与应用 赛题背景: 阿里巴巴旗下电商拥有海量的买家和卖家交易场景下的数据。利用数据挖掘技术,我们能对未来的商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作用。 赛题介绍: 本赛题以历史一年海量买家和卖家的数据为依据,要求参赛者预测某商品在未来二周全国和区域性需求量。选手们需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。更精确的需求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率。 解决方案-比赛任务 评测成本: 在本赛题中,参赛者需要提供对于每个商品在未来两周的全国最优目标库存和分仓区域最优目标库存的预测。我们会提供每一个商品的补少成本(A)和补多成本(B),然后根据用户预测的目标库存值跟实际的需求的差异来计算总的成本。参赛者的目标是让总的成本最低。 全国范围内的成本计算如下: 分仓区域内的成本计算如下: 总的衡量指标: 解决方案-比赛任务 赛题数据: 我们提供商品20151227的全国和区域分仓数据。参赛者需给出后面两周20160110)的全国和区域分仓目标库存。 商品在全国的特征包括商品的本身的一些分类:类目、品牌等,还有历史的一些用户行为特征:浏览人数、加购物车人数,购买人数。注意我们要预测的未来需求是“非聚划算支付件数”(qty_alipay_njhs)。 表(1)item_feature:商品粒度相关特征 表(2)item_store_feature: 商品和分仓区域粒度相关特征 表(3)config: 每个商品在全国和分仓区域的补少、补多的成本 表(4)选手需要提交的结果表(预测目标表) 参赛者需要提供每个商品的全国和分仓区域的未来两周20160110)目标库存。 注:各表的具体详情请参考赛程说明文档 数据预处理 采样与过滤 A 增加序列号 C 缺失值填充 E 数据合并 B 拆分 D 归一化 F 天池的御膳房算法平台提供数据预处理工具和方法 标准化 G 采样与过滤 加权采样: 以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。 随机采样: 以随机方式生成采样数据,每次采样是各自独立的。 过滤与映射: 对数据按照过滤表达式进行筛选。过滤条件中填写where语句后面的sql脚本即可;映射规则可以rename字段名称。 分层采样 : 根据用户指定的分组字段分层采样样本 数据合并 JOIN: 类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以rename输出的字段名称 合并列: 将两张表的数据按列合并,需要表的行数保持一致,否则报错。 UNION: 类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保持完全一致;去重是union,不去重是union all。 增加序列号 在数据表第一列追加ID列。 缺失值填充 忽略元组 人工填写缺失值 使用全局常量(如Unknown)填写缺失值 使用属性的中心度量(如均值或者中位数)填充缺失值 使用与给定元组属同一类的所以样本的属性均值或中心值 使用最可能的值填充缺失值 拆分

文档评论(0)

zxiangd + 关注
实名认证
文档贡献者

本人从事教育还有多年,在这和大家互相交流学习

1亿VIP精品文档

相关文档