- 22
- 0
- 约8.84千字
- 约 17页
- 2019-07-20 发布于湖北
- 举报
数据挖掘重点整理
选择数据挖掘函数
汇总, 分类, 回归, 关联, 聚类
知识点概括
聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大
2、聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分
聚类的数目和结构都没有事先假定
聚类方法的目的是寻找数据中:
潜在的自然分组结构a structure of “natural” grouping
感兴趣的关系relationship
聚类分析的研究对象
R型分析----对变量进行分类
Q型分析----对样品进行分类
5、离群点数据挖掘方法简介
基于统计的方法
基于距离的方法
基于密度的方法
基于聚类的方法
离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点
离群点与众不同,但具有相对性。
(2) 点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也还有分高和分低的区别。
(3) 离群点的数量及时效性
正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%
离群点的概率定义:
离群点是一个对象,关于数据的概率分布模型,它具有低概率
8、离群点挖掘问题由两个子问题构成:
(1)定义在一个数据集中什么数据是不一致或离群的数据;
(2)找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。
9、为什么会出现离群点?
测量、输入错误或系统运行错误所致
数据内在特性所决定
客体的异常行为所致
由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群点”是否真正对应实际的异常行为,不是由离群点挖掘算法来说明、解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对于异常数据的处理方式也取决于应用,并由领域专家决策。
10、离群点挖掘中需要处理的几个问题
(1) 全局观点和局部观点
离群点与众不同,但具有相对性。
(2) 点的离群程度
可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也还有分高和分低的区别。
(3) 离群点的数量及时效性
正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%
11、一个对象可能相对于所有对象看上去离群,但它相对于它的局部近邻不是离群的
12、通过定义对象的离群程度来给对象打分 ,如都为离群点的情况下,也还有分高和分低的区别。——离群点得分(outlier score)或离群因子(Outlier Factor)
13概率分布模型通过估计用户指定的分布的参数,由数据创建。
14、离群点检测方法准确性的两个指标:检测率、误报率
15、关联规则
关联规则是形如 X ? Y的蕴含表达式, 其中 X 和 Y 是不相交的项集
例子: {Milk, Diaper} ? {Beer}
16、关联规则的强度
支持度 Support (s)
确定项集的频繁程度
置信度 Confidence (c)
确定Y在包含X的事务中出现的频繁程度
17、挖掘关联规则
大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:
频繁项集产生(Frequent Itemset Generation)
其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。
规则的产生(Rule Generation)
其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strong rule)
18、先验原理:
如果一个项集是频繁的,则它的所有子集一定也是频繁的
相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的:
这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-based pruning)
这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性(anti-monotone)。
19、信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息量就很大。
抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少?
您可能关注的文档
- 味精的生产工艺.ppt
- 经典企业管理课件如何让员工努力工作?.ppt
- 客运专线预应力溷凝土预制梁技术条件3.doc
- 的门诊病历管理软件.doc
- 高校人员信息管理系统.doc
- 麦克里兰——胜任素质.doc
- 化妆品2014年秋季学期复习1.ppt
- 家庭车库自动控制系统.ppt
- 跨区汇总纳税幻灯片.ppt
- 角的比较与运算同步习题精讲课件.ppt
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- C-V2X与单车智能融合研究.pptx VIP
- 消防改造设计任务书.docx VIP
- 广东省佛山市顺德区2024-2025学年六年级下册期中考试语文试卷(有答案).pdf VIP
- 消防设计任务书.docx VIP
- 实施指南《GB12268-2012危险货物品名表》实施指南.pptx VIP
- 带电作业安全距离PPT课件.pptx VIP
- 林业成果图制作—林业专题图及制图(GIS制图技术).pptx
- 高中英语课件7开课名师-郭贝老师from page to screen.pdf VIP
- 丙种球蛋白被动免疫治疗原因不明性反复自然流产研究.pdf VIP
- (二模)南通市2025届高三第二次调研测试英语试卷(含标准答案).docx
原创力文档

文档评论(0)