人工智能4相似性度量.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《人工智能:算法的视角》卷一草稿 第四章 相似性度量 第 4 章 相似性度量 对于相似性 (similarity )的判断,是人类认识世界的关键。基于相似事物的共同特性, 我们才能得以形成概念、发现客观规律,这正是机器学习的要义。相似性可以是外显的, 比如外观、声音、特征相似等;也可以是内含的,比如符合共同的规律等。在前面的监督 学习中,根据输入-输出集合获得与之拟合的函数。从相似性的角度,可以认为输入-输出训 练数据是相似的,其相似性体现在共同符合的相应函数上,这一点在分类函数(分类器) 的学习上体现得尤为充分,相似的为同类,不相似的为异类。再从学习角度认识,监督学 习是由人给出了具有相似性的事物,再由机器从中发现其所具有的共同规律,因此在监督 学习中,相似性计算本身并不是问题。而在下一章将要谈到的非监督学习中,没有人为标 注信息可用,只有依赖于数据本身的特性和关系来进行学习,而数据之间的相似性是定义 数据之间关系的基础,因此数据相似性度量的准确性对于非监督学习效果有重要影响,甚 至可以说是其中最为关键的问题。对于这一问题的解决,一种手段是人为根据经验来确定 相应的度量方法;另一种手段则是第二章曾谈及的度量学习,即利用机器学习技术,从人 供的能反映相似概念的训练数据中,自动发现度量数据相似性的方法。 相似性与信息检索中常出现的相关性(relevance )概念既有一致性,也有区别。某些相 关性是以相似性为基础的,比如同属一类事物等,此时相关性与相似性表达了同一概念, 是一致的。某些相关性则是以事物之间的关联为基础的,比如父子关系等,此时相关性与 相似性是不同的。 如果只考虑外显的相似性,这种相似性的概念是狭义的,否则为广义的。本章以下仅 考虑狭义的相似性度量方法。在我们对世界的数据化述中,存在不同的数据类型,相应 的相似性度量方式也存在不同。目前可见的数据类型包括数据向量 (为简化表述,我们将 标量归入只有一个元素的数据向量)和数据集合两大类。数据向量可进一步分为离散向量、 连续向量和混合向量三种。数据集合可进一步分为简单集合、有序集合 (序列数据)、结构 集合 (结构数据)、模糊集合四种。下面首先说明上述数据类型和度量学习的基本思想,进 而分别针对每种类型,给出相应的相似性度量方法及其度量学习方法。 4.1 数据类型 4.1.1 数据向量 数据向量,通常也被称为特征向量(feature vector ),其形式为: { },其 x = x ,x ,,x 1 2 n 中 n 为数据维数,各分量x n 常被称为变量(variable )或属性(attribute,尤其在离散情 i i =1 况下),以下统称变量。在有些应用场合下,需要考虑数据向量中各个分量的权重,则相应 增加一个权重向量:{ },其中每个权重对应于相应位置上的数据分量。 w , w , , w 1 1 2 n 数据向量中的分量可以有不同类型,分为连续变量(continuous variable )和离散变量 (discrete variable )两大类。离散变量又可进一步分为二值变量(binary vari

您可能关注的文档

文档评论(0)

卖报的小行家 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档