数据挖掘之相似性度量.docxVIP

下载本文档

9
0
约5.62千字
约 8页
2021-03-25 发布于山东
举报
版权申诉

数据挖掘之相似性度量.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

v1.0 可编辑可修改数据挖掘之相似性度量机器学习或数据挖掘，就是在数据中寻求答案的算法。而寻求的答案就是训练完成的数据模型。大部分的数据建模方法都属于这两种： 1）数据汇总，对数据进行简洁的近似描述如 pagerank 、聚类 2）特征抽取如频繁项集（同时频繁出现的元素子集）、相似项（共同元素比例较高的集合对）在机器学习或数据挖掘之前，还需要概率，或信息论的一些相关知识，现实世界的对象需要转换为计算机的度量方式。 1. 熵的相关概念相似度的度量及计算对文本相似度的分析局部敏感 Hash 的分析 LSH 查找相似项的处理流程几种距离度量方式相关知识： 1 v1.0 可编辑可修改 1. 文本分类时，一个重要指标：，分为两个阶段：同一文档中的统计；以文档为粒度，所有文档的统计。 TF： term frequency 词项频率，同一篇文档中，所有词项出现频率的归一化 IDF ： inverse document frequency 逆文档频率，所有文档数目，与某一词出现的文档的数目的比率关系其中的关系：不仅仅是一个公式，里面包含了信息论中熵的概念。 IDF 就是一个特定条件下关键词的概率分布的交叉熵。应用了对数运算。熵的相关概念熵，表示信息量的大小，与概率相关。随机变量的不确定性越大，即概率小，其熵也就越大，将其搞清楚，所需的信息量也就越大。 -Pi * log(2, Pi) 求和。一个系统越混乱，则每个变量的概率越小，其熵也就越大。信息论在通信编码的表示也是一样的，一个变量，在系统中的概率越小，其编码也就越长，因为短的编码要留给概率大的变量。即熵越大，其编码也就越长，这样压缩的效率就比较高。发送一段信息，其需要的编码长度（二进制），也就是 -Pi * log(2, Pi) 求和。或者，可以说，熵越大，信息量越大，一个概率较低的词，可能就是系统信息比较关键的词。互信息：两个随机变量的相关 / 依赖程度，可以用来解释一个变量已知时，另外一个变量的不确定的变化。即不确定信息的减少量。自信息：一个随机变量（信源）发出的信息，这个信息所带来的信息量的度量。一次事件发生的提供的信息量 -log(2, Pi) ，有时与熵的含义相同（当事件只发生一次时）。而熵是平均信息量，所有自信息的期望。当信息确定时，确定场（无随机性）的熵最小。等概场的熵最大。熵率：又称字符熵、词熵。信息量的大小随着消息长度的增加而增加。 - （1/n ）（求 2 v1.0 可编辑可修改和 Pi*log(2, Pi) ）联合熵：同联合分布函数的形式类似，联合随机变量所表示的平均信息量（期望）。 H(x, y) = - 求和 P(x,y) log(2, P(x, y)) 条件熵： H(y|x) = - 求和 P(x,y) log(2, P(y|x)) 联合熵 = 条件熵 + 单变量熵 , H(x, y) = H(y|x) + H(x) 互信息的熵 I (x; y) = H(x) - H(y | x) = H(y) - H(y|x), 描述了 X 中包含有多少 Y 的信息量，或者是 Y 中包含了多少 X 的信息量。当 X, Y 相互独立，则其互信息为 0. 当 I(x; y) 0 ，则两个事件 X,Y 高度相关；当 I （ x; y ） 0，则两个事件 X， Y 互补分布。交叉熵：随机变量 X 的分布 p（ x ）未知，则通过统计手段估计出 X 的近似分布 q（ x），则随机变量的交叉熵为 H（ x, q ） = - 求和 p * log （ 2， q）， H(X,q) = H(X) 相对熵： Kullback-Leibler divergence ， K-L 发散度， K-L 距离 D(p || q) = H(p, q) H(p) 。用来描述当概率密度函数估计有偏差错误时，增加的信息量有多少。因为概率分布的类型，可能会估计错误，如均匀分布，被估计成高斯 / 正态分布。两个分布的差异，带来的信息量差别。相似度的度量和计算 Jaccard 度量： A, B 两个集合，其相似性为： (A 交 B) / (A 并 B), 其值域为 [0, 1] 而直接求解 A， B 集合的相似度时，普通的遍历算法复杂度为 N^2, 而采用排序的遍历算法，最优的复杂度也为 N*(logN). 如何获取更好的性能计算那可以采用 minHash 的方法。其定义为：已知一个 hash 函数 h(x) ，具有良好的均匀性，一个集合 S, 集合内所有元素，经过 hash 之后，得到最小 hash 值的那个元素。 hash 函数， A、 B 相同的元素，必定都会 h