- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
svd降维与kmeans聚类
SVD与 K-means相关介绍一SVD与 K-means相关介绍一背景数学基础3. SVD原理与应用K-Means及其应用5. 参考文献1 背景在协同过滤计算中,由于用户数较大,用户之间的相似矩阵元素数为用户数的平方数量级,会很大;如果项目数较多,项目之间的相似矩阵也会很大;相似矩阵中用户与用户之间,项目与项目之间的相似性大多是一个比较小的数。有无可能将大矩阵缩小,使其可放到内存,而矩阵信息不丢失?2. 有无其它类似协同过滤和关联规则的方法,可以将相似度较高的数据集中到一起,而且有类似降维的效果?2.1 相似度2向量x=x1,x2,…xn y=y1,y2,…yn 欧式距离明式距离[5] 我打盹人A:我打盹1,1,1,0B:我打人1,1,0,12.2 特征值与特征向量[7]定义:对于矩阵A与向量x,如有 称向量 x是矩阵A的特征向量,矩阵A在特征向量x上的特征值为 。 3.1 SVD(Singular value decomposition)降维原理1[3]直接选维带来的问题二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和D一维(Y)A的2-nn:B和F3.1 SVD降维原理2[3]先旋转坐标轴再进行选维XY?X1Y1二维(XY)A的2-nn:B和C一维(X)A的2-nn:B和C后面可以看到旋转只是为了表示一个概念。这个概念就是向特征最明显、最能区别的方向变化。在svd中最明显的方向就是最大特征值对应的特征向量方向,svd中间特征矩阵中的特征值是经过排序的,从大到小,所以特征向量也是排序的,第一个向量最明显。在横向上看左边矩阵的方向,在纵向上看右边矩阵的方向3.1 SVD公式及应用1 [6,1]奇异值分解: 对于实矩阵A可以分解成三个矩阵相乘: A=XBY 其中X为AAT的特征向量矩阵 Y为ATA的特征向量矩阵的转置 B为ATA与AAT共同特征值如果用户数为10万,则相似度矩阵为元素为100亿一般用户之间的关系值都比较小,较多为0,这样这个矩阵的秩会很小,也即特征值个数会比较少如果其特征值个数为1000 则右边三个矩阵的元素个数分别为1亿,100万, 1亿,总元素数为2.01亿,元素数减小近50倍如有必要可将这1000个特征值特中较小的特征值忽略,计算结果会仍然很近似原始矩阵对于A的元素aij,可用U第i行向量乘W再乘V第j列向量得到3.2 SVD公式及应用2 [8]以上方法即搜索引擎中的潜语义标号4.1 K-means聚类[9]第一步:在样本中随意选k个样本作为分类中心第二步:将剩余样本按与这k个分类中心的距离进行分类第三步:重新计算分类中心第四步:如果新分类中心与旧分类中心有变化,则执行第二步,直至分类中心稳定4.2 Weka中使用K-means11.过程同关联规则ppt a.准备数据 b.转成csv格式 c.打开explorer d.open file导入weka e.转到cluster标签 f.点击choose按扭选择SimpleKMeans g.点击参数列表进行参数设置 h.点击start按扭4.2 Weka中使用K-means2类中心偏差4.3 K-means应用 相似图形匹配1在相似图形匹配中,可以考虑先将图片进行分类以减小查找范围,再两两比较 假设有10000支股票,每支股票每天产生一张分时图,40年产生的分时图数量为:10000*365*40=14600万(张) 如果希望每次平均能找出20张大致相同的图片,则需要的分类数为14600万/20=730万(类) 将图片按时间平均分成8块,如每块之间的分类相互独立(实际上前后块之间应该有关联,所以分类要更多一些,具体关联程度需要实际数据测量),则每块需要的分类数为((730万)开8次方)取整=8(类);如分成4块,则每块需要的分类数为((730万)开4次方)取整=52(类)4.3 K-means应用相似图形匹配2对于每一块内类如何定义呢? 至少有两种方法:1.定义标准形(然后按图片与标准形的相似度进行判断,其实是数字,并不真用图形比较,因为走势图每个横坐标x只对应一个y,图像数据是一个向量)2.采用聚类的方法,自动生成类中心(缺陷是可能会有很多数据聚到一个类,需要想办法让数据在各个中心平均 分布)这样每张大图被分成多个子图(比如8张),每个子图属于一个类,给类加一个标识(比如字母B),图片的分类标识就是8个字母组成的单词.这样就可以利用倒排表,根据词查找图像(文本搜索中为词-文档关系,此处为词-图像关系)找到同类图像后,再用向量相似度算法对类中图像按与目标图像相似度排序(此时需要比较的图片已经大大减少,可采用复杂算法保证准确度)参考文献[1].hk/ggblog/googlechinablog/2006/12/bl
您可能关注的文档
最近下载
- 新22S6消防工程参考标准.docx
- 慢性肾脏病早期筛查、诊断及防治指南(2022年版).pptx VIP
- 家庭饮食健康计划.pptx VIP
- 2025年福建省厦门集美中学招聘办公室职员1人笔试备考题库及答案解析.docx VIP
- 级配碎石施工 ..ppt VIP
- 2022年7月上海高考英语真题(学生版+解析版+听力音频).docx
- DB44T 1212-2013 用能单位能源计量管理体系通用要求.pdf VIP
- 上-下气道慢性炎症性疾病联合诊疗与管理专家共识中华医学会呼吸病学分会哮喘学组(发布时间:2017-07).pdf VIP
- 心力衰竭诊疗规范.docx VIP
- 光照时间对三斑海马幼苗成活率和生长速度的影响.pdf VIP
文档评论(0)