svd降维与kmeans聚类.pptxVIP

下载本文档

124
0
约2.4千字
约 15页
2017-02-16 发布于重庆
举报
版权申诉

svd降维与kmeans聚类.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

svd降维与kmeans聚类

SVD与 K-means相关介绍一SVD与 K-means相关介绍一背景数学基础3. SVD原理与应用K-Means及其应用5. 参考文献1 背景在协同过滤计算中，由于用户数较大,用户之间的相似矩阵元素数为用户数的平方数量级,会很大;如果项目数较多,项目之间的相似矩阵也会很大；相似矩阵中用户与用户之间，项目与项目之间的相似性大多是一个比较小的数。有无可能将大矩阵缩小，使其可放到内存，而矩阵信息不丢失？2. 有无其它类似协同过滤和关联规则的方法，可以将相似度较高的数据集中到一起,而且有类似降维的效果？2.1 相似度2向量x=x1,x2,…xn y=y1,y2,…yn 欧式距离明式距离[5] 我打盹人A:我打盹1,1,1,0B:我打人1,1,0,12.2 特征值与特征向量[7]定义：对于矩阵A与向量x，如有称向量 x是矩阵A的特征向量，矩阵A在特征向量x上的特征值为。 3.1 SVD(Singular value decomposition)降维原理1[3]直接选维带来的问题二维（XY）A的2-nn：B和C一维（X）A的2-nn：B和D一维（Y）A的2-nn：B和F3.1 SVD降维原理2[3]先旋转坐标轴再进行选维XY?X1Y1二维（XY）A的2-nn：B和C一维（X）A的2-nn：B和C后面可以看到旋转只是为了表示一个概念。这个概念就是向特征最明显、最能区别的方向变化。在svd中最明显的方向就是最大特征值对应的特征向量方向，svd中间特征矩阵中的特征值是经过排序的，从大到小，所以特征向量也是排序的，第一个向量最明显。在横向上看左边矩阵的方向，在纵向上看右边矩阵的方向3.1 SVD公式及应用1 [6,1]奇异值分解：对于实矩阵A可以分解成三个矩阵相乘： A=XBY 其中X为AAT的特征向量矩阵 Y为ATA的特征向量矩阵的转置 B为ATA与AAT共同特征值如果用户数为10万，则相似度矩阵为元素为100亿一般用户之间的关系值都比较小，较多为0，这样这个矩阵的秩会很小，也即特征值个数会比较少如果其特征值个数为1000 则右边三个矩阵的元素个数分别为1亿，100万， 1亿，总元素数为2.01亿，元素数减小近50倍如有必要可将这1000个特征值特中较小的特征值忽略，计算结果会仍然很近似原始矩阵对于A的元素aij，可用U第i行向量乘W再乘V第j列向量得到3.2 SVD公式及应用2 [8]以上方法即搜索引擎中的潜语义标号4.1 K-means聚类[9]第一步：在样本中随意选k个样本作为分类中心第二步：将剩余样本按与这k个分类中心的距离进行分类第三步：重新计算分类中心第四步：如果新分类中心与旧分类中心有变化，则执行第二步，直至分类中心稳定4.2 Weka中使用K-means11.过程同关联规则ppt a.准备数据 b.转成csv格式 c.打开explorer d.open file导入weka e.转到cluster标签 f.点击choose按扭选择SimpleKMeans g.点击参数列表进行参数设置 h.点击start按扭4.2 Weka中使用K-means2类中心偏差4.3 K-means应用相似图形匹配1在相似图形匹配中，可以考虑先将图片进行分类以减小查找范围，再两两比较假设有10000支股票，每支股票每天产生一张分时图，40年产生的分时图数量为：10000*365*40=14600万（张）如果希望每次平均能找出20张大致相同的图片，则需要的分类数为14600万/20=730万（类）将图片按时间平均分成8块，如每块之间的分类相互独立（实际上前后块之间应该有关联，所以分类要更多一些，具体关联程度需要实际数据测量），则每块需要的分类数为((730万)开8次方)取整=8(类)；如分成4块，则每块需要的分类数为((730万)开4次方)取整=52(类)4.3 K-means应用相似图形匹配2对于每一块内类如何定义呢? 至少有两种方法：1.定义标准形(然后按图片与标准形的相似度进行判断,其实是数字,并不真用图形比较,因为走势图每个横坐标x只对应一个y,图像数据是一个向量)2.采用聚类的方法,自动生成类中心(缺陷是可能会有很多数据聚到一个类,需要想办法让数据在各个中心平均分布)这样每张大图被分成多个子图(比如8张),每个子图属于一个类,给类加一个标识(比如字母B),图片的分类标识就是8个字母组成的单词.这样就可以利用倒排表,根据词查找图像(文本搜索中为词-文档关系,此处为词-图像关系)找到同类图像后,再用向量相似度算法对类中图像按与目标图像相似度排序(此时需要比较的图片已经大大减少,可采用复杂算法保证准确度)参考文献[1].hk/ggblog/googlechinablog/2006/12/bl