数据挖掘技术详解.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Boosting 过程: 在一定的权重条件下训练数据,得出分类法Ct 根据Ct的错误率调整权重 Set of weighted instances Classifier Ct train classifier adjust weights * AdaBoost 初始赋予每个样本相等的权重1/N ; For t = 1, 2, …, T Do 学习得到分类法Ct; 计算该分类法的错误率Et Et=所有被错误分类的样本的权重和; βt= Et/(1 - Et) 根据错误率更新样本的权重; 正确分类的样本: Wnew= Wold* βt 错误分类的样本: Wnew= Wold 调整使得权重和为1; 每个分类法Ct的投票价值为log [ 1 / βt ] * Boosting … … x c1(x) c2(x) cT(x) C* c*(x) = argmaxcm Sct(x)=cm log(1/bt) C1 train S,w1 train C2 S,w2 CT train S,wT * 聚 类 聚类是把不同的个体分割成有相似性的子群。它不事先预定好类,完全根据其自相似性归类。 如不同症状的集合可能表示为某种疾病。 类内各对象相似度高,类间对象差别大。这种无标记的分类过程称聚类(Clustering),得到的类称簇(Cluster)。 聚类是人类学会区分事物(抽象或具体)的能力。 它是无指导的学习。 聚类源于许多领域:统计学,模式识别,机器学习,生物学。 * 聚类方法 划分方法 层次方法 基于密度方法 基于网格方法 基于模型方法 * 划分方法 划分方法概念: 将一个包含n个数据对象的数据库,要生成簇数目k,用一个算法将数据组织成k个划分(k= n),其中每个划分代表一个簇(Cluster)。这样面临两个问题: (1)k选多少,怎么选(2)怎样归类 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举所有的划分; 启发式方法: k-均值和 k-中心点算法 k-均值 :由簇的平均值来代表簇; k-中心点或 PAM (围绕中心点的划分): 每个簇由簇中的某个数据对象来代表。 * K-均值算法 算法:k-均值算法; 输入:包括n个对象的数据库,簇的数目k 输出:k个簇,使平方误差准则最小; 方法: 1) 任意选择k个对象作为初始的簇的中心; 2)计算各对象与K个簇中心的相似度,将各对象归于最相似的簇,对簇内对象计算出新的平均值(中心); 3)再计算各对象与新的K个簇中心的相似度,再根据各对象与新的簇平均值相似度,将每个对象重新赋给最类似的簇,形成新的簇对象; 4)再更新簇的平均值,即计算每个对象的平均值 5)直到不再发生变 * 层次方法 对给定数据对象集合进行层次分解。根据层次分解的形成方法,分凝聚方法和分裂方法。 凝聚方法: 自底向上凝聚(找相近),先一个元组一个组,然后合并相近组为新组(簇),逐级向上,直至为一组,或达到终止条件。 分裂方法: 先所有元组为一个组,迭代一次往下分几个组,直至每个元组为一个组(簇)或达到终止条件。 层次方法的缺陷,一旦一个步骤(合并或分裂)完成,就不能被撤销。 * X1 X2 X3 X4 X5 X6 X1 X2 X4 X3 X5 X6 谱系关系图 * 基于密度方法 划分方法是基于距离找相近,这样就形成一个一 个的接近球形的簇。 但有些问题簇不是球形,而是不规则的图形。 基于密度的方法是临近区域元组的数目(密度) 超过某个阈值,就形成一个簇。这样超过一 定数目元组点(密度)区域就聚类为任意形状的簇。 这种方法可过滤噪声和孤立点。 * * * 时间序列聚类分析方法 改进的k-均值算法:利用层次算法得到一组初始聚类中心,这样就优化了初始聚类中心的选择。 方法概要:首先利用ICA方法提取静态特征数据,即混合矩阵,然后利用本文所提出的改进k-均值算法对所提取的静态特征数据进行聚类,从而完成了对原始时间序列数据的聚类, * 数值实验结果 第一类:1,3,12,13,15,18,22; 第二类:14,40; 第三类:4,5,16,21,27,29,39; 第四类:9,17,19,31,33,36; 第五类:2,11,23,24,25,26,30,32,37; 第六类:6,7,10,28; 第七类:8,34,35,38; 第八类:20; * 同类中的股票走势 * 不同类中的股票走势 * 复杂网络社区结构划分 美国一所大学中空手道俱乐部成员间关系的网络 * 神经元网络 人工神经网络提供了一种普遍且实用的分类方法,从样本中学习值为实数、离散值

文档评论(0)

335415 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档