- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
相似性与差异性的度量(Measures of Similarity and Dissimilarity)很多数据挖掘技术都用到了相似性与差异性,如聚类(clustering),最近邻分类(nearest neighbor classification),异常侦测(anomaly detection)等。很多情况下,初始数据集并不需要立刻进行相似性或者差异性度量。这些方法可以看作是将数据转换到相似性(差异性)空间中再分析。首先,我们讨论一些基础的内容:对相似性和差异性在高层次的定义,并探讨一下它们的关系。为了方便,相近性(proximity)既用来代替相似性也代替差异性。由于两个对象之间相近性是指这两个对象的相关属性在功能上(或者函数上,原文是a function of the proximity)相近性,我们首先描述一下如何度量对象之间的一个属性的相近性,然后考虑对象之间多属性的相近性测量。这里的测量包括关联关系(correlation)和欧几里得距离(Euclidean distance),它们对密集型数据如时间序列(time series)或者二维点(two dimensional points)等很有用,而Jaccard和余弦相似性(cosine similarity)度量则对稀疏性数据,如文档等很有用。基础部分(Basic)定义(Definitions)非正式的,两个对象之间的相似性是指两个对象之间在数值上有多大的相似程度(the similarity between two objects is a numerical measure of the degree to which the two objects are alike)。因此,相似性越高,对象之间越相像。相似性通常是非负的,介于0(没有相似性)到1(完全相似)之间。差异性则指两个对象在数值上的差异程度。差异性越低,两个对象越相像。通常,用距离(distance)代替差异性,距离通常表示类别之间的差异性。差异性有时在区间[0,1]之间,有时也在0到之间。转换(Transformations)转换通常是把相似性转变成差异性,或者反过来也一样,也可能是把相近性度量转变成一个特定的区间中,如[0,1]。举个例子,我们有个范围在1到10的相似性,但是某个特定的算法或者软件包要求使用差异性,或者相似性只能在区间[0,1]之间。这些问题后面要使用到,且相对独立于其他细节。通常情况下,相近性度量,尤其是相似性度量,定义或者转换的区间都在[0,1]之间。这样转换通常都比较直接。如两个对象之间的相似性在1(没有相似性)到10(完全相似)之间,我们可以通过转换公式将该区间转换成0到1之间,其中s和s’分别表示原来的相似性的值和新的相似性的值。一般的,相似性转换成[0,1]区间可以使用下面的公式:其中,和分别表示相似性值的最大值和最小值。同样的,差异性转换成[0,1]区间可以使用下面的公式:但是这样的变换也会带来很多的新问题。有很多种方法可以将相近性区间映射到[0.1]之间。如果原来的相近性值在[0,,]之间,则需要一个非线性的变换方法,值之间的关系也在转换中也会变得不同。如用转换公式d’=d/(1+d)来变换差异性范围在0到之间的值。差异性:0, 0.5, 2, 10, 100,和1000将变成0, 0.33, 0.67, 0.9, 0.99, 和0.999。原来差异性较大的值转变成接近1的结果,当然,这是否满足期望与应用本身有关。另外一个新问题是相近性测量结果的意义有了变化。如相关关系的区间[-1,1]通过取绝对值的方式映射到[0,1]会丢掉符号的信息,这在某些应用中非常重要。将相似性转变成差异性或者反过来也是相对直接的转换。当然,这里也会遇到改变数值意义或者线性尺度变为非线性尺度等问题。[0,1]区间的相似性转变成差异性可以通过d=1-s得到。或者直接在数值上加上负号等方法。加负号的转变方法并不局限于[0,1]之间,如果有类似的区间限制可以采用如下转换等: , , 一般的,任何的单调减函数都可以用来将差异性转变成相似性,或者反过来也一样。转变的时候其它因素也要考虑,包括保留意义(preserving meaning),尺度变换(distortion of scale),数据工具分析的需要(requirements of data analysis tools)等等。简单属性的相似性和差异性(Similarity and Dissimilarity between Simple Attributes)具有多个属性的对象之间的相近性通常是由单个属性相近性联合产生的。因此,我们首先讨论对象单个属性的相近性。考虑一下,如果一个对象由一个属性描述,那么两个对象是是相似的,
您可能关注的文档
最近下载
- 系统性能测试方案.docx VIP
- 省泉州市泉港区粮食购销有限公司招聘笔试真题2023.docx VIP
- 论“知假买假”法律适用.doc VIP
- 项目建议书、可行性研究报告编制及评估费用——工程咨询收费标准速查表.xls VIP
- 2025年国考行测真题及解析.docx VIP
- 2019输变电工程前期工作指引和选址选线技术手册.docx VIP
- 2025年福建省泉州市泉港区粮食购销有限公司招聘4人笔试备考题库及答案解析.docx VIP
- 2025年福建省泉州市泉港区粮食购销有限公司招聘4人笔试模拟试题及答案解析.docx VIP
- 2025福建省泉州市泉港区粮食购销有限公司招聘工作人员4人笔试备考试题及答案解析.docx VIP
- 五年级部编版语文语文园地三-课件.ppt VIP
文档评论(0)