人工智能4相似性度量.pdf

下载文档

34
0
约6.61万字
约 24页
2020-12-08 发布于四川
举报
版权申诉
保障服务

人工智能4相似性度量.pdf

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《人工智能：算法的视角》卷一草稿第四章相似性度量第 4 章相似性度量对于相似性（similarity ）的判断，是人类认识世界的关键。基于相似事物的共同特性，我们才能得以形成概念、发现客观规律，这正是机器学习的要义。相似性可以是外显的，比如外观、声音、特征相似等；也可以是内含的，比如符合共同的规律等。在前面的监督学习中，根据输入-输出集合获得与之拟合的函数。从相似性的角度，可以认为输入-输出训练数据是相似的，其相似性体现在共同符合的相应函数上，这一点在分类函数（分类器）的学习上体现得尤为充分，相似的为同类，不相似的为异类。再从学习角度认识，监督学习是由人给出了具有相似性的事物，再由机器从中发现其所具有的共同规律，因此在监督学习中，相似性计算本身并不是问题。而在下一章将要谈到的非监督学习中，没有人为标注信息可用，只有依赖于数据本身的特性和关系来进行学习，而数据之间的相似性是定义数据之间关系的基础，因此数据相似性度量的准确性对于非监督学习效果有重要影响，甚至可以说是其中最为关键的问题。对于这一问题的解决，一种手段是人为根据经验来确定相应的度量方法；另一种手段则是第二章曾谈及的度量学习，即利用机器学习技术，从人供的能反映相似概念的训练数据中，自动发现度量数据相似性的方法。相似性与信息检索中常出现的相关性（relevance ）概念既有一致性，也有区别。某些相关性是以相似性为基础的，比如同属一类事物等，此时相关性与相似性表达了同一概念，是一致的。某些相关性则是以事物之间的关联为基础的，比如父子关系等，此时相关性与相似性是不同的。如果只考虑外显的相似性，这种相似性的概念是狭义的，否则为广义的。本章以下仅考虑狭义的相似性度量方法。在我们对世界的数据化述中，存在不同的数据类型，相应的相似性度量方式也存在不同。目前可见的数据类型包括数据向量（为简化表述，我们将标量归入只有一个元素的数据向量）和数据集合两大类。数据向量可进一步分为离散向量、连续向量和混合向量三种。数据集合可进一步分为简单集合、有序集合（序列数据）、结构集合（结构数据）、模糊集合四种。下面首先说明上述数据类型和度量学习的基本思想，进而分别针对每种类型，给出相应的相似性度量方法及其度量学习方法。 4.1 数据类型 4.1.1 数据向量数据向量，通常也被称为特征向量（feature vector ），其形式为： { }，其 x = x ,x ,,x 1 2 n 中 n 为数据维数，各分量x n 常被称为变量（variable ）或属性（attribute，尤其在离散情 i i =1 况下），以下统称变量。在有些应用场合下，需要考虑数据向量中各个分量的权重，则相应增加一个权重向量：{ }，其中每个权重对应于相应位置上的数据分量。 w , w , , w 1 1 2 n 数据向量中的分量可以有不同类型，分为连续变量（continuous variable ）和离散变量（discrete variable ）两大类。离散变量又可进一步分为二值变量（binary vari