- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE \* MERGEFORMAT23
目录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc438042193 第一章 绪论 PAGEREF _Toc438042193 \h 1
HYPERLINK \l _Toc438042194 1.1研究背景和意义 PAGEREF _Toc438042194 \h 1
HYPERLINK \l _Toc438042195 1.2本文主要内容 PAGEREF _Toc438042195 \h 2
HYPERLINK \l _Toc438042196 第二章 频繁项集 PAGEREF _Toc438042196 \h 3
HYPERLINK \l _Toc438042197 2.1频繁项集概述 PAGEREF _Toc438042197 \h 3
HYPERLINK \l _Toc438042198 2.2频繁项集名词解析 PAGEREF _Toc438042198 \h 3
HYPERLINK \l _Toc438042199 2.3频繁项集分析指标 PAGEREF _Toc438042199 \h 4
HYPERLINK \l _Toc438042200 第三章 A-Priori算法 PAGEREF _Toc438042200 \h 5
HYPERLINK \l _Toc438042201 3.1 概述 PAGEREF _Toc438042201 \h 5
HYPERLINK \l _Toc438042202 3.2 Apriori核心算法过程 PAGEREF _Toc438042202 \h 6
HYPERLINK \l _Toc438042203 第四章 PCY算法 PAGEREF _Toc438042203 \h 8
HYPERLINK \l _Toc438042204 第五章 A-Priori算法的java实现 PAGEREF _Toc438042204 \h 9
HYPERLINK \l _Toc438042205 第六章 Hadoop核心 PAGEREF _Toc438042205 \h 11
HYPERLINK \l _Toc438042206 6.1 HDFS PAGEREF _Toc438042206 \h 11
HYPERLINK \l _Toc438042207 6.1.1 HDFS概述 PAGEREF _Toc438042207 \h 11
HYPERLINK \l _Toc438042208 6.1.2 NameNode和SecondNameNode PAGEREF _Toc438042208 \h 12
HYPERLINK \l _Toc438042209 6.2 MapReduce PAGEREF _Toc438042209 \h 14
HYPERLINK \l _Toc438042210 第七章 基于MapReduce的A-Priori算法实现 PAGEREF _Toc438042210 \h 16
第一章 绪论
1.1研究背景和意义
购物篮模型的最早应用源于真实购物篮的分析,也就是说,超时和连锁商店都会记录每个结账的购物篮的内容、这里的“项”指的是商店出售的不同商店,而“购物篮”指的是单个购物篮中所装的项集,通过发现频繁项集,零售商可以知道哪些商品通常会被顾客购买,那些共同购买的频度远高于各自独立购买所预期的频度的项对或项集。
频繁项集分析的应用并不仅限于购物篮数据,同样的模型可以用于挖掘很多其他类型的数据。例如:
(1) 关联概念 这里的项是词,购物篮是文档。文档中的所有词就构成了对应购物篮中的项,如果要寻找多篇文章中共同出现的词汇集合,那么这些集合大都被高频常见词所占据,比如,我们想要寻找猫和狗的网页摘要,但是停用词“and”和“a”却占据了频繁项集中的主要比例,如果忽略所有的停用词,那么我们希望在高频次对中发现某些能够代表联合概念的一部分词对。
(2) 文档抄袭 这里的项是文档,购物篮是句子。一篇文档中,如果包含某个句子,则任务该句子对应的购物篮中包含文档对应的项。本应用中,寻找那些在多个购物篮中共同出现的项对,如果发现这项的项对,也就是两篇文档有很多相同的句子,实际当中,设置一到两个句子相同都是抄袭发生的有力证据。
(3) 生态标志物 这里的项包括两种类型,一种是诸如基金或血蛋白之类的生物标志物,另一类是痢疾,而
文档评论(0)