数据挖掘导论-ch2创新
维归约:PCA 目标是找到捕获数据中最大变差的投影 x2 x1 e 维归约:PCA 找出协方差矩阵的特征向量 特征向量定义新空间 x2 x1 e 维归约: ISOMAP 构造邻接图 对于图中的每对点,计算最短路径距离– geodesic distances By: Tenenbaum, de Silva, Langford (2000) 维归约:PCA 特征子集选择 另一种降低数据维度的方法 冗余特征 重复了包含在一个或多个其他属性中的许多或所有信息 如: 一种产品的购买价格和所支付的销售税额 不相关特征 包含对于手头的数据挖掘任务几乎完全没用的信息 如: 学生的ID号码对于预测学生的总平均成绩是不相关的 特征子集选择 技术: 暴力法:: 尝试所有可能的特征子集作为数据挖掘算法的输入 嵌入方法: 特征选择作为数据挖掘算法的一部分是理所当然的 过滤方法: 在数据挖掘算法运行前进行特征选择 包装方法: 将数据挖掘算法作为黑盒寻找最佳属性子集 特征创建 创建新的属性集,比原始属性更有效的捕获数据集中的重要信息 三种相关方法: 特征提取 具体领域 映射数据到新的空间 特征构造 组合特征 映射数据到新的空间 Two Sine Waves Two Sine Waves + Noise Frequency 傅里叶变换 小波变换 使用类标签进行离散化 基于熵的方法 3 ca
您可能关注的文档
- 数据分析实验报告.doc
- 2.脊髓ppt.ppt
- 数据分析培训.ppt
- 施工招标文件奥特莱斯e-3.doc
- 施工现场临时用电规范讲义(图解).ppt
- 施工周报2016年12月14日~2016年12月27日.doc
- 数据众包案例.docx
- 施工总进度计划表.docx
- 数据处理英文版.ppt
- 施工组织3.doc
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)