- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则及相似项(下).ppt
数据挖掘与决策支持 教师:徐硕 电话8006 Email: xush@ OR pzczxs@ 课程网址: 13/dmwiki/index.php?id=course:datamining15 课程主要内容 绪论(Introduction) 关联规则及相似项(Association Rule Similar Items) 调查问卷分析方法(Questionnaire Analysis) 分类和预测(Classification Prediction) 序列标注(Sequence Labeling) 聚类分析(Clustering) 主题模型(Topic Model) 第三章:关联规则及相似项(下) 相似项发现及应用 相似项检测方法 近似:基于LSH的文档相似性检测 精准:SpotSigs相似性检测 本章小结 场景完成问题(1/2) 场景完成问题(2/2) 相似项发现应用:抄袭检测(1/3) 文档抄袭检测问题,非常考验文本相似度发现的能力 抄袭者可能会从其他文档中,将某些部分的广西据为已用 也可能对某些词语,或者原始文本中的句序进行改变 尽管如此,最终的文档中可能仍然有50%,基至更多的内容来自别人的原始文档 当然,一个复杂的抄袭文档,很难通过简单的字面比较来发现 相似项发现应用:抄袭检测(2/3) 相似项发现应用:抄袭检测(3/3) 相似项发现应用:镜像页面 重要或流行的Web站点,通常会在多个主机上,建立镜像以共享加载内容 这些镜像站点的页面十分相似,但并不完全相同 例如,这些网页可能包含与其所在的特定主机相关的信息,或者包含对其他镜像网站的链接 另一个例子:课程网站的互相套用 相似项发现应用:同源新闻稿 通常一个记者会撰写一篇新闻稿,然后分发到各处 比如通过美联社到多家报纸,然后每家报纸会在其网站发布该新闻稿 每家报纸会对新闻稿进行某种程序的修改,比如去掉某些段落或者加上自己的内容 在新闻稿周围会有各报社自己的LOGO、广告或者指向自己站内其他新闻稿件的链接等 但是每家报纸的核心内容,还是原始的新闻稿 相似项应用:搜索引擎 检测出这种类型的相似网页非常重要,可以避免在返回的第一页结果中,包含几乎相同的多个网页 相似项发现问题 给定N(百万或上亿)个项组成的集合,找到高于某个阈值的所有项对 第三章:关联规则及相似项(下) 相似项发现及应用 相似项检测方法 近似:基于LSH的文档相似性检测 精准:SpotSigs相似性检测 本章小结 基于LSH的文档相似性检测 文档Shingling 为了识别字面上相似的文档,将文档表示成集合的最有效的方法,是构建文档中的短字符串集合 如果文档采用这样的集合表示,那么有相同句子,甚至短语的文档之间,将会拥有很多公共的集合元素 即使两篇文档中的句序并不相同,也是如此 文档是一个字符串,文档k-shingle定义为其中任意长度为k的子串 每篇文档可表示成,文档中出现的k-single的集合 文档Shingling:实例 假设文档D为(a, rose, is, a, rose, is, a, rose),选择k = 4,文档D中的所有4-shingle: 集合表示:{(a, rose, is, a), (rose, is, a, rose), (is, a, rose, is)} 多重集合(multi-set)或袋(bag)表示:{(a, rose, is, a): 2, (rose, is, a, rose): 2, (is, a, rose, is): 1} 集合相似度/距离计算 Jaccard相似度 通过计算交集的相对大小,来获得集合之间的相似度 sim(C1, C2) = |C1?C2|/|C1?C2| Jaccard距离 d(C1, C2) = 1 - |C1?C2|/|C1?C2| 相似度为3/8,距离为5/8 多重集合相似度/距离计算 A = {a: 3, b: 1} B = {a: 2, b: 2, c: 1} sim(A, B) = 3 / 6 = 0.5 A和B的交集为两个a,一个b; A和B的并集为三个a,两个b,一个c Shingle大小的选择(1/3) 文档A = (a, rose, is, a, rose, is, a, rose) 文档B = (a, rose, is, a, flower, which, is, a, rose) 选择k = 1 A:{a: 3, rose: 3, is: 2} B:{a: 3, rose: 2, is: 2, flower: 1, which: 1} 集合:sim(A, B) = 3/5 = 0.6 多重集合: sim(A, B) = 7/10 = 0.7 选择k = 2 A: {(a
您可能关注的文档
最近下载
- 广州市萝岗区凤凰山隧道工程TJ-04合同段 路基高边坡施工“12.29”坍塌 较大事故调查报告.doc VIP
- 新解读《GB_T 18319 - 2019纺织品 光蓄热性能试验方法》最新解读.pptx VIP
- T∕CABEE 030-2022民用建筑直流配电设计标准.pdf VIP
- 高中政治大单元教学设计案例.docx VIP
- 人音版音乐四年级下册 第4课童年的音乐 白桦林好地方 课件(共22张PPT)(含音频+视频).pptx VIP
- 2025年中国方便粉丝市场调查研究报告.docx
- 畜牧养殖业项目融资方案.docx VIP
- 煤矿职业健康操作规程.pdf VIP
- 中建给排水设计控制要点技术指南(94页).pdf VIP
- 2025年青海省中考生物地理合卷试题(含答案解析).docx
文档评论(0)