基于海量数据集相似集合挖掘技术研究.pdfVIP

  • 1
  • 0
  • 约6.07千字
  • 约 17页
  • 2025-10-22 发布于北京
  • 举报

基于海量数据集相似集合挖掘技术研究.pdf

Applications

Shingling

Minhashing

LocalityǦSensitiveHashing

MiningofMassiveDatasets

kovec,Rajaraman,andUllman

StanfordUniversity

应用程序Shingling

Minhashing局部性Ǧ敏

感哈希

海量数据集的挖掘kovec、

Rajaraman和Ullman斯坦福大学

ManydataͲminingproblemscanbeexpressed

asfinding“similar”sets:

1.Pageswithsimilarwords,e.g.,for

classificationbytopic.

2.NetFlixuserswithsimilartastesinmovies,for

recommendationsystems.

3.Dual:movieswithsimilarsetsoffans.

4.Entityresolution.

许多数据Ͳ挖掘问题可以表示为寻找“相

似”集:

1.具有相似单词的页面,例如按分

类。2.Netflix用户对的品味相似,适合

推荐系统。3.双重:粉丝群体相似的。

4.实体解析。

Givenabodyofdocuments,e.g.,theWeb,

findpairsofdocumentswithalotoftextin

common,suchas:

Mirrorsites,orapproximatemirrors.

Application:Don’twanttoshowbothinasearch.

giarism,includinglargeations.

Similarnewsarticatmanynewssites.

Application:Clusterarticby“samestory.”

给定一组文档,例如网络,找到具有大

量共同文本的文档对,例如:

镜像站点,或近似镜像。

应用程序:不想在搜索中同时显示两者。

,包括大量。

许多上都有类似的文章。

应用:按“同一个故事”对文章进行聚类。

1.Shingling:convertdocuments,emails,

etc.,tosets.

2.Minhashing:convertlargesetstoshort

signatures,whilepreservingsimilarity.

3.LocalityͲsensitivehashing:focusonpairs

ofsignatureslikelytobesimilar.

1.Shingling:将文档、电子邮件等转换为

集合。

2.Minhashing:将大集合转换为短签名,

同时保留相似性。

3.局部性Ͳ敏感哈希:关注可能相似的签名

对。

文档评论(0)

1亿VIP精品文档

相关文档