- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第2章数据数据类型数据质量数据预处理相似性和相异性度量
2.1数据类型
2.1.1属性与度量
2.1.2数据集的类型
3数据数据集是数据对象的集合数据对象用一组刻画对象根本特性〔如物体质量或事件发生时间〕的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性〔attribute〕是对象的性质或特性,他因对象而异,或随时间而变化属性的其他名称变量、特性、字段、特征或维AttributesObjects属性如何测量和描述,既取决于事物本身的客观性质,也和所掌握的技术手段相关。涉及到测量精度:海岸线长度。虹膜颜色〔分几类颜色描述、RBG均值描述、RBG直方图描述〕
05一月2025数据挖掘导论4测量标度是将数值或符号与对象的属性相关联的规那么。属性的性质不必与用来度量它的值的性质相同。属性的类型序性质、可加性序性质
05一月2025数据挖掘导论5属性的类型属性的类型,即测量标度类型,取决于以下4种数值性质:属性值〔数值〕的性质1、Distinctness〔相异性〕: =? 2、Order〔序〕: 3、Addition〔加法〕: +- Multiplication〔乘法〕: */属性的类型不同,允许的操作不同
05一月2025数据挖掘导论6属性的类型Therearedifferenttypesofattributes标称〔Nominal〕Examples:、雇员ID序数〔Ordinal〕Examples:成绩、街道号码区间〔Interval〕Examples:日期、温度比率〔Ratio〕Examples:绝对温度、长度、年龄、计数
05一月2025数据挖掘导论7表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,?)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、?2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(?,?)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率
05一月2025数据挖掘导论8表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率
05一月2025数据挖掘导论9用值的个数描述属性:离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码,计数,文档集的词常表示为整数变量.注意:二元属性(binaryattributes)是离散属性的特例连续属性(ContinuousAttribute)属性值为实数例:温度,高度,重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.
05一月2025数据挖掘导论10数据集的一般特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难〔CurseofDimensionality〕维归约〔dimensionalityreduction〕稀疏性(Sparsity)如具有非对称特征的数据集,一个对象的大局部属性上的值都为0只存储和处理非零值分辨率(Resolution)数据的模式依赖于分辨率——度量尺度(scale)在数米的分辨率下,地球外表看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到
05一月2025数据挖掘导论11数据集类型〔三大类〕记录数据数据矩阵〔DataMatrix〕文本数据〔DocumentData〕:每篇文档可以表示成一个文档-词矩阵事务数据〔TransactionData〕基于图形(Graph)的数据Worl
您可能关注的文档
- 新版pep三年级下recycle1.ppt
- 最新课件国家财政优质课版.ppt
- 旅游数据中心产品方案.pptx
- 运动场监理规划.doc
- 金属及其化合物模拟题.doc
- 钢结构加固方案.doc
- 新人教版五年级上册数学《练习一》课件.pptx
- 钢结构通廊施工组织设计.doc
- 数据中心空调节能研究.pptx
- 重点中学提前招生科学模拟试卷.doc
- 绿电2022年系列报告之一:业绩利空释放,改革推动业绩反转和确定成长.docx
- 化学化工行业数字化转型ERP项目企业信息化规划实施方案.pdf
- 【研报】三部门绿电交易政策解读:溢价等额冲抵补贴,绿电交易规模有望提升---国海证券.docx
- 中国债券市场的未来.pdf
- 绿电制绿氢:实现“双碳”目标的有力武器-华创证券.docx
- 【深度分析】浅析绿证、配额制和碳交易市场对电力行业影响-长城证券.docx
- 绿电:景气度+集中度+盈利性均提升,资源获取和运营管理是核心壁垒.docx
- 节电产业与绿电应用年度报告(2022年版)摘要版--节能协会.docx
- 2024年中国人工智能系列白皮书-智能系统工程.pdf
- 如何进行行业研究 ——以幼教产业为例.pdf
最近下载
- 有机旱作高粱栽培技术.ppt VIP
- 南瑞集团-水轮发电机组状态监测整体解决方案.pdf
- NB∕T 10581-2021 风力发电机组安全带 安全工器具应用技术规范.docx
- 北京市2020年中考数学试卷(含答案).pdf VIP
- 北京市2021年中考数学试卷(含答案).pdf VIP
- 充电(桩)站维保方案.docx
- 硝酸甘油完整版.ppt
- 标准图集-16G101-3混凝土结构施工图平面整体表示方法制图规则和构造详图-独立基础、条形基础、统形基础及桩基承台.pdf VIP
- 建筑安装工程施工图集7,常用仪表工程(建筑 图集).pdf
- 仁爱版八年级下册英语Unit-8-Topic-2-完整课件(84页).pptx VIP
文档评论(0)