大数据存储与处理-相似项发现.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据存储与处理-相似项发现

第三章 相似项发现;3.1 近邻搜索的应用;3;3.1.2 文档的相似度;3.1.2 文档的相似度;3.1.3 协同过滤;3.1.3 协同过滤;3.2 文档的shingling;3.2.1 k-shingle;3.2.2 shingle大小的选择;3.2.3 对shingle进行哈希;3.2.4 基于词的shingle;例子;3.3 保持相似度的集合摘要;3.3.1 集合的矩阵表示;3.3.2 最小哈希;3.3.3 最小哈希及jaccard相似度;四种类型;3.3.3 最小哈希;3.3.4 最小哈希签名;3.3.5 最小哈希签名的计算;3.4 文档的局部敏感哈希算法;3.4 文档的局部敏感哈希算法;26;27;28;29;30;3.4.3 上述技术的综合;3.5 距离侧度;3.5.1 距离侧度的定义;3.5.2 欧式距离;3.5.3 Jaccard距离 ;3.5.4 余弦距离;3.5.5 编辑距离;3.5.5 编辑距离;3.5.6 汉明距离;40;41;42;43;44;45;46;47;48;49;50;51;52;53;54;55;3.8.2 实体关联 ;57;58;59;3.9.3 基于长度的过滤;;3.9.4 前缀索引;3.9.4 前缀索引;3.9.5 位置信息的使用;3.9.6使用位置和长度信息的索引;3.8 LSH函数的应用;

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档