- 8
- 0
- 约6.89千字
- 约 6页
- 2017-06-12 发布于湖北
- 举报
文本相似度的计算方法
相似度计算方面
Jaccard相似度:集合之间的Jaccard相似度等于交集大小与并集大小的比例。适合的应用包括文档文本相似度以及顾客购物习惯的相似度计算等。
Shingling:k-shingle是指文档中连续出现的任意k个字符。如果将文档表示成其k-shingle集合,那么就可以基于集合之间的Jaccard相似度来计算文档之间的文本相似度。有时,将shingle哈希成更短的位串非常有用,可以基于这些哈希值的集合来表示文档。
最小哈希:集合上的最小哈希函数基于全集上的排序转换来定义。给定任意一个排列转换,集合的最小哈希值为在排列转换次序下出现的第一个集合元素。
最小哈希签名:可以选出多个排列转换,然后在每个排列转换下计算集合的最小哈希值,这些最小哈希值序列构成集合的最小哈希签名。给定两个集合,产生相同哈希值的排列转换所占的期望比率正好等于集合之间的Jaccard相似度。
高效最小哈希:由于实际不可能产生随机的排列转换,因此通常会通过下列方法模拟一个排列转换:选择一个随机哈希函数,利用该函数对集合中所有的元素进行哈希操作,其中得到的最小值看成是集合的最小哈希值。
签名的局部敏感哈希:该技术可以允许我们避免计算所有集合对或其最小哈希签名对之间的相似度。给定集合的签名,我们可以将它们划分成行条,然后仅仅计算至少有一个行条相等的集合对之间的相似度。通过合理选择行条大小,可以消除不满足相似
您可能关注的文档
最近下载
- 《电力建设安全工作规程 第1部分 火力发电》.doc VIP
- 《外语(2)》(俄语)课程教学大纲(本科).docx VIP
- 大容量锅炉承压部件爆漏事故分析.ppt VIP
- 2026年车辆使用管理考试题及答案.docx
- 1-丁烯的理化性质及危险特性表.doc VIP
- 法医学 主要关节活动度测量方法、检验记录表单、功能位、中立位参考值、检验流程图.pdf VIP
- 中华商业文化-全套PPT课件.pptx
- 部编版小学道德与法治四年级上册教案教学计划及进度表(全册).doc VIP
- 招标代理机构比选评分标准.docx VIP
- 深度解析(2026)《GBT 2423.4-2008电工电子产品环境试验 第2部分:试验方法 试验Db 交变湿热(12h+12h循环)》.pptx VIP
原创力文档

文档评论(0)