大数据：互联网大规模数据挖掘解决方案.pptxVIP

下载本文档

21
0
约 21页
2016-12-11 发布于湖北
举报
版权申诉

大数据：互联网大规模数据挖掘解决方案.pptx

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MiningofMassiveDatasets大数据：互联网大规模数据挖掘与分布式处理聚类7PartClustering聚类是对点集进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是同一簇内的点之间的距离较短，而不同簇中点之间的距离较大。如图，不同种类的犬在某种程度上形成一种簇。三种不同犬类的身高体重分布图，可以知道这些犬可以分到三个簇中，每个簇恰好对应一种犬类。而聚类分析则是根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象聚类或分组，所形成的每个簇可以看作一个数据对象类，用显式或隐式的方法描述它们。最大化簇内的相似性最小化簇间的相似性聚类算法基于划分的K-meansK-medoids基于层次的凝聚的分裂的基于密度的DBSCANOPTICS基于网格的STINGCLIQUE基于模型的StatisticsNeuralNetwork010203040506能够适用于大数据量（可伸缩性）能够处理不同类型数据（距离定义）能够发现任意形状的簇（结果特点）能够处理高维数据具有处理噪声的能力聚类结果可解易使用Web广告8PartAdvertisingontheWeb目前，许多WEB应用通过广告而维持生计，从在线广告中获益最多的是搜索应用，而搜索广告的有效性主要源于将搜索查询和广告进行匹配的一个称为Adwords模型。本章将主要关注广告匹配的优化算法。这里使用的算法属于一种特殊的类型，他们属于一种特殊的类型，它们属于贪心算法且从特定技术角度来说是在线算法，重点讨论在线广告的相关问题、在线算法、Adwords实现和问题等。Web广告Adwords实现投标和搜索查询的匹配更复杂问题的匹配问题文档和投标之间的匹配算法Adwords问题搜索广告的历史Adwords问题的定义Adwords问题的贪心算法Balance算法Balance算法竞争的一个下界多投标者的Balance算法一般性的Balance算法Adwords问题的最后论述在线广告相关问题广告机会直接广告展示广告的相关问题在线算法在线和离线算法贪心算法竞争率广告匹配问题匹配及完美匹配最大匹配贪心算法贪心匹配算法的竞争率1离线算法将算法所需的所有数据准备好才产生答案的传统算法在线算法只能保存有限的流数据，但是需要在某个流元素到达之后就以输出的方式对查询进行应答，此时是在对未来的数据一无所知的情况下对当前元素进行决策的过程2算法现象一般情况下会寻找搜索引擎收益和广告上显示次数同时的最大化，因为无法保证在线算法与离线算法一样有效3贪心算法采用贪心策略，综合考虑关键词与广告的匹配程度、广告商竞价、广告商剩余预算等因素，通过最大化当前输入元素信息的某个函数得到当前的最优值。4竞争率存在某个小于1的常数c,使得对于任意输入，一个具体的在线算法的结果至少是最优离线算法结果的c倍。1二部图设G=(V,E）是一个无向图，如果顶点V可分割为两个互不相交的子集(A,B），并且图中的每条边（i，j）所关联的两个顶点i和j分别属于这两个不同的顶点集，则称图G为一个二分图。2最大匹配一个二分图G，在G的一个子图M中，M的边集中的任意两条边都不依附于同一个顶点，选择这样的边数最大的子集称为图的最大匹配问题。3完美匹配在一个匹配中，所有的节点都不会同时是两条或者多条边对的端点且所有的节点都出现，则匹配是完美的。4最大匹配的贪心算法按照任意次序来考虑边，当考虑边（x,y）时，如果x和y都不是已有匹配中边的端点则加入，否则跳过。贪心算法产生的匹配不一定是最大匹配，很可能结果会不尽人意。5贪心匹配算法的竞争率为1/2。因为算法的竞争率是算法所有可能的输入下所得到最小值和最优结果的比值，因此1/2是竞争率的上界。又设Mo是最大匹配、Mg是贪心算法匹配，L为在Mo中匹配但在Mg中不匹配的左节点结合，R为L中所有节点连接的边右节点的集合。由于|M0|=|M0|+|L|,|L|=|R|，|R|=|Mg|，可以推导得到|M0|=2|Mg|，竞争率至少为1/2。因此竞争率为1/2。二部图最大匹配完美匹配最大匹配的贪心算法贪心匹配算法的竞争率为1/20102030405推荐系统9PartRecommendationSystems举例1，在淘宝上多次浏览某类商品时，淘宝网站会出现该类产品的推荐，诸如：您可能感兴趣…。举例2，某些门户网站会基于您的浏览足迹，推荐您感兴趣的新闻内容。没错，这就是推荐系统的巨大魅力，大数据环境之下，Web应用可以对涉及用户喜好进行预测，而这种系统称为推荐系统。不知道大家有没有这样的经验，反正我是经常碰到。这类系统通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所喜欢的项会推荐给该用户。这类系统主要考察的是推荐项的性质。用户计算机用户以往的浏览历史来预测用户将来的行为，也就是基于内容