第三章_数据基础技术分析.pptx

  1. 1、本文档共82页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据基础 主讲人: 刘天亮 liutl@ TEL: 南京邮电大学图像处理与图像通信江苏省重点实验室 目录 数据基础 数据特征 数据预处理 数据存储 数据分析 3.1数据基础 数据伴我们左右 我们先要了解一些有关数据的常识 3.1.1 数据属性 数据对象的特征(Characteristics) 或特性 (feature) 别名: 特征 维度 变量 属性集合:属性向量 数据对象往往包含一个或多个 描述数据对象的特征的量,即属性。 每个字段为 三种属性类型 类别型属性: 用于区分不同的数据对象的符号或名称,没有顺序关系。 类别属性之间的比较关系: 只有“相同”和“相异”两种。 能利用类别型属性的附加属性, 进行排序操作; 或转换为数值,完成数值计算等操作 属性类型 2. 序数型属性: 其属性值之间具有相对的顺序关系,或者存在衡量属性值间顺序关系的法则。 数据对象间的顺序关系为相对存在的, 具有“相同”、“相异”运算, 还可以参与比较大小或先后的运算。 序数型属性值也用于主观色彩较强的排序场合。 属性类型 3. 数值型属性: 使用定量方法表达属性值,通常使用整数或实数进行表征。区间型数值属性和比值型数值属性 区间型数值属性的起始值 可以在整个实数区间上取值, 其数值能进行差异运算。 比值型数值属性拥有基准点 (通常为零点) 离散型和连续型 3.2 数据特征 基本统计描述 数据的宏观表达 “探索式数据分析”的基础 基本统计描述 均值 中位数 方差 数据对象间的关系:相似度和相异度 数据间关系的度量 经常在统计和数据挖掘中使用 相似度和相异度的定义方式与适用领域和数据类型有关 相异度矩阵 不匹配率: (二值类别型数据) Jaccard系数: 常用于比较两文档的相似性 类别型数据距离计算 类别型数据的距离度量可以直接用属性集中,对应位置不相等的属性的个数作为度量值。 公式中,p为两对象间的属性个数,m为两对象对应属性相等的个数。 Jaccard系数用来表示两个二进制串间的距离。其中,q为两字符串对应位置为同一值的 个数;r为两串对应位置上,第一个字符串为1,第二个字符串为0的个数;s与r相反。 数值型属性间的距离:明科夫斯基距离系 欧氏距离(L2) 曼哈顿距离 (L1) 明科夫斯基距离(LP) 分类 存在不确定性 属性不确定性 来源 本身误差 精度转换 特定应用需求 缺失值 数据集成 数据不确定性 3.3 数据预处理 目的:提供数据质量,使得可视化效果和质量得以提高; 使得后续的可视化工作简便易行。 根据厂家、需求和任务类型的不同, 数据预处理技术可分为: 数据清理、数据整合和数据变换。 标准系统架构 应用 数据库 ETL 抽取(Extract) 转化( Transform) 装载(Load) 数据仓库 数据产品 商业智能 分析 ETL的内部过程 数据清理 数据整合 原始数据通常含有杂质 “Garbage in, garbage out.” 处理 过程 3.3.1 数据质量 数据质量:数据质量高 - 对目标用途的符合度高 精确性(Accuracy) 完整性(Completeness) 一致性(Consistency) 适时性(Timeliness) 可信性(Believability) 可解释性(Interpretability) 数据可视化质量 数据墨水比(data-ink ratio): 数据可视化质量的衡量标准 3.3.2 数据预处理的步骤 1. 数据清洗 数据清理: 检测和清除数据中的错误和不一致,以提高数据质量 Data… Data! 数据错误类型及处理方法 缺失值 常量代替缺失值 属性平均值填充 回归/分类预测式填充 人工填充 噪声值 回归分析 离群点分析 可视数据清洗 使用可视化工具,能提高数据清洗等预处理过程的效率。 左图是graph数据的node-link表示,中间是矩阵表示,右图是经过重排后的矩阵表示。 从右图中可以看出右下完整的白色部分,有可能是数据缺失造成的。 2. 数据整合/集成 数据整合包括 : (1) 合并来自多个数据源的数据 (2) 向用户提供一个关于这些数据的统一视图 管理来自多个数据源的数据 数据1 数据2 数据3 数据 多数据源 结构冲突(structural conflicts): 不同的模式(schema)等 数据冲突(data conflicts): 重复的记录,冲突的记录属性等 多源数据集成需解决的问题: 属性匹配、去除冗余、数据冲突检测与处理 数据整合实例(1) 客户列表1 客户列表2 整合结果

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档