聚类分析基础:距离定义与方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

•定义距离

•聚类方法

•定义距离

•聚类方法

1.皮尔逊相关系数

•如果你将x和y的值制成散点图(将x1与y1、x2与y2等配对),那么r表示你能够多好地拟合一条

直线来描述这些值。

•最简单地理解相关系数的方法是将x和y绘制成曲线,r值告诉你这两条曲线的形状有多么相似。

•反映了变量间的线性相关程度的大小(趋势)

•1完全相同

•0完全不相关

•‑1完全相反

•相关系数在数据的线性变换下是不变的

•D=1‑r

1.Pearsoncorrelation

•Ifyouweretomakeascatterplotofthevaluesofxagainsty(pairingx1withy1,x2withy2,etc),thenr

reportshowwellyoucanfitalinetothevalues.

•Thesimptwaytothinkaboutthecorrelationcoefficientistoplotxandyascurves,withrtellingyou

howsimilartheshapesofthetwocurvesare.

•反应了变量间的线性相关程度的大小(趋势)

•1identical

•0completelyuncorrelated

•-1perfectopposite

•Thecorrelationcoefficientisinvariantunderlineartransformationofthedata

•D=1-r

非化相关性

•这基本上是相同的功能,只是它假设均值为0,即使实际上不是。不

同之处在于,如果你有两个形状相同但相对于彼此有一个固定偏移的向

量x和y,它们的皮尔逊相关系数(居中相关)为1,但非居中相

关不会为1。

Uncenteredcorrelation

•Thisisbasicallythesamefunction,exceptthatitassumesthemeanis0,

evenwhenitisnot.Thedifferenceisthat,ifyouhavetwovectorsxandy

withidenticalshape,butwhichareoffsetrelativetoeachotherbyafixed

value,theywillhaveastandardPearsoncorrelation(centeredcorrelation)

of1butwillnothaveanuncenteredcorrelationof1.

绝对皮尔逊相关系数

D=1‑|r|

•Cluster了两种相似性度量,这些度量是

这两个相关函数的绝对值,它们认为如果两个

项目具有相反的表达模式,则它们是相似的;

而的相关系数则认为相反的相距很远。

AbsolutePearsoncorrelation

•D=1-|r|

•Clusterprovidestwosimilaritymetricsthatarethe

absolutevalueofthesetwocorrelationfunctions,

whichconsidertwoitemstobesimilariftheyhave

oppositeexpressionpatterns;thestandard

correlationcoefficientsconsideroppositegenesto

beverydistant.

2.非参数距离度量

•Spearman秩相关

•肯德尔的τ

•为了使用皮尔逊线性相关系数,必须假设数据是成对地从正态

分布中

文档评论(0)

kay5620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8001056127000014

1亿VIP精品文档

相关文档