相似度算法完.pptxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2017-04-23

文本相似度算法

一、引语

通过采集系统我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。

分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?

我们知道一篇文章或网页与某些内容或关键字之间的相关联程度,但是,有的时候,我们还想知道,某两篇文章是不是讲的是同一个主题,同一种内容。比如,我们想知道两篇文章是否都是金融类文章或者都是医学类文章。要知道,能不能确定两篇文章是否相似

一、利用余弦定理

是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量

一、利用余弦定理

TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术。

TF:TermFrequency词频

IDF:Inversedocumentfrequency倒文档频率

/whiterbear/article/details一、利用余弦定理

频率的计算方法:用该网页的关键字出现的次数除以网页的总字数。我们把这个商称为TF(关键字的频率或者单文本的频率)。

比如,某个网页中共有1000个词,其中“原子能”,“的”,“应用”分别出现了2次,35次和5次,那么它们的词频就分别是(2/1000)=0.002,(35/1000)=0.035,(5/1000)=0.005,这三个词频相加之和0.042就是这个网页相对于“原子能应用”这个关键字的TF(单文本词频)

一、利用余弦定理

含义:如果某个关键词出现在网页中出现,在网页总数个情况下,值越大,我们就认为关键词的权重越小,反之亦然。

(如关键字“python”在10万个网页中出现,而“gensim”只在1000个网页中出现,那么“gensim”的权重就会比“python”多,这样搜索出来的结果就与你想要的结果越贴近)

比如,假定中文网页数是=10亿,“的”在所有的网页中都出现,即D=10亿,那么它的IDF=log(10亿/10亿)=log(1)=0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500)=2.7。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF=log(2)则只有0.3。

一、利用余弦定理

首先,我们针对一篇文章中所有实词计算出它们的TF-IDF值。然后,把这些值对应实词在词汇表中的位置进行排列,就能得到一个向量。比如,词汇表中有64000个词,其编号和词如下图

从而,我们能够得到64000个数,组成64000维向量。我们使用这个向量来代表这个文章的特征信息

一、利用余弦定理

将三角形的两边b和c看成是以A为起点的向量,其中,分母表示两个向量b和c的长度,分子表示两个向量的内积

一、利用余弦定理

举一个具体的例子,假如文章X和文章Y对应的向量分别是

那么它们的夹角的余弦等于

一、利用余弦定理

由于向量中的每一个变量都是正数,因此余弦的取值在0和1之间,也就是说夹角在0度到90度之间。当两篇文章的向量的余弦等于1时,这两个向量的夹角为零,两篇文章完全相同;当夹角的余弦接近于1时,两篇文章相似,可以认为属于同一类文章;当夹角的余弦趋近于零甚至于等于零时,说明它们直接相似度很低,甚至完全无关,术语两种完全不同的文章

二、欧氏距离

欧氏距离衡量的是空间各点的绝对距离,跟各个点所在的位置坐标直接相关

欧氏距离和余弦距离各自有不同的计算方式和衡量特征,因此它们适用于不同的数据分析模型:

欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。

余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦距离对绝对数值不敏感)。

三、Jaccard相似度

两个集合的交集除以两个集合的并集,所得的就是两个集合的相似度

四、最长公共子串

字符串的相似性:如果将一个串转换成为另一个串所需的操作数最少,那么可以说这两个串是相似的

另外一种权衡的方法是,寻换第三个串s3,如果s3都出现在s1和s2中,且出现的顺序相同,但不要求在s1和s2中连续,那么s3的长度越大,就说明相似度越高。

如果用暴力搜索的方法求解LCS问题,就要穷举X的所有子序列,对每个子序列进行检查,看它是否是Y的子序列,记录找到的最长的子序列。X对应下标人格集合{1,2,3……m}的一个子集,那么X的子序列就有2^m个

五、编辑距离

编辑距离的算法是首先由俄国科学家Levenshtein提出的,故叫Levenshtein距离,指的是两个字

文档评论(0)

idowen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档