- 1
- 0
- 约3.54千字
- 约 40页
- 2018-12-24 发布于福建
- 举报
数据挖掘中的这特征选择
数据挖掘中的特征选择 数据挖掘的作用 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术 数据挖掘的应用 数据分析和决策支持 市场分析和管理 客户关系管理 (CRM),市场占有量分析,交叉销售,目标市场 风险分析和管理 风险预测,客户保持,保险业的改良,质量控制,竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘—知识挖掘的核心 数据挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识 数据挖掘和商业智能 典型数据挖掘系统 数据挖掘:多个学科的融合 数据挖掘的主要方法 分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他 特征归约在数据挖掘中的作用 因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。 高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。 特征选择和特征降维是两类特征归约方法。 特征选择 特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。 特征选择的过程 ( M. Dash and H. Liu 1997 ) 特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3大类。 完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索(BFS ) (2) 分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索(Best First Search) 启发式搜索 (1) 序列前向选择(SFS) (2) 序列后向选择(SBS) (3) 双向搜索(BDS) (4) 增L去R选择算法 (LRS) (5) 序列浮动选择(Sequential Floating Selection) (6) 决策树(DTM) 随机算法 (1) 随机产生序列选择算法(RGSS) (2) 模拟退火算法(SA) (3) 遗传算法(GA) 特征的评价函数 特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。 常用的有平方距离,欧氏距离,非线性测量,Minkowski距离,信息增益,最小描述长度,互信息,依赖性度量或相关性度量,一致性度量,分类错误率 ,分类正确率 特征选择方法的模型 一般地,特征选择方法可以分为三种模型,分别是:过滤模型、封装模型和混合模型。 过滤模型:根据训练集进行特征选择,在特征选择的过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。 过滤模型简单且效率很高。由于过滤模型中的特征选择过程独立于学习算法,这就容易与后面的学习算法产生偏差,因此为了克服这个缺点提出了封装模型。 基于过滤模型的算法主要有两类:特征权重和子集搜索。 这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。 特征权重算法对每个特征指定一个权值,并按照它与目标概念的相关度对其进行排序,如果一个特征的相关度权值大于某个阈值,则认为该特征优秀,并且选择该特征。该算法缺点在于:他们可以捕获特征与目标概念间的相关性,却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响,冗余特征同样影响学习算法的速度和准确性,也应尽可能消除冗余特征。Relief算法是一个比较著名的特征权重类方法。 子集搜索算法通过在
您可能关注的文档
- 数据结张构第14讲-线索树与树和森林-c.ppt
- 数据可视化的仍表现形式.pptx
- 数据库第16讲上数据库保护.ppt
- 数据库第四章教学被ppt.ppt
- 数据库第章关系数据库理都论基础.ppt
- 数据库高级和应用技术01-(三大范式).ppt
- 数据库高级应用技术03-(区存储过程).ppt
- 数据库管区理之数据库模型.ppt
- 数据库基本为原理和应用.ppt
- 数据库检索基本原又理和方法.ppt
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
原创力文档

文档评论(0)