第二章大数据导论数据获取与治理.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据获取与治理 报告人:王宏志 wangzh@hit.edu.cn 目录 01 概述 02 大数据的来源与多源 方式 03 数据集成和跨界应用的数据集成方法 04 数据的预处理 05 教学方法的思考 06 习题 概述 关于数据进入数据库之前的故事… 三个内容 数据获取 数据集成 数据预处理 知识点 大数据的来源 大数据的获取手段 数据离散化 数据集成相关理论与方法 数据变换 数据质量 概述 课程重点 重点1 大数据的不同来源 重点2 不同种类大数据的采集方法以及离散化的动机 重点3 数据集成的概念 重点4 数据预处理的必要性和基本技术 重点5 数据质量的相关概念 课程难点: 难点1 不同大 方法的对象和考虑因素 难点2 传统数据集成和跨界数据集成的区别 难点3 不同数据清洗方法针对的错误类型 目录 01 概述 02 大数据的来源与多源 方式 03 数据集成和跨界应用的数据集成方法 04 数据的预处理 05 教学方法的思考 06 习题 大数据的来源 世上本没有数据,一切数据都是人为的 对现实世界的测量 • 通过感知设备获得数据 人类的记录 • 由人录入计算机形成数据 计算机生成的数据 • 计算机通过现实世界模拟等程序生成数据 大数据的来源 现实世 人类记 计算机 界 录 生成 规模极大 规模较大 规模可控 更新极快 更新较快 速度可控 质量参差 质量很低 质量很高 不齐 语义较为 语义不明 语义明确 明确 确 价值密度 价值密度 价值密度 较低 很低 不定 多源数据的采集  是指从真实世界对象中获得原始数据的过程。  的过程要充分考虑其产生主体的物理性质,同时要兼顾数据应 用的特点。 限制因素 目标 特殊要求 • 资源有限

文档评论(0)

136****1820 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档