大数据互联网大规模数据挖掘与分布式处理(第一章).pptVIP

下载本文档

6
0
约2.86千字
约 22页
2016-03-30 发布于湖北
举报
版权申诉

大数据互联网大规模数据挖掘与分布式处理(第一章).ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据互联网大规模数据挖掘与分布式处理(第一章).ppt

大数据：互联网大规模数据挖掘与分布式处理第一章数据挖掘基本概念目录数据挖掘定义相关知识邦弗朗尼原理 TF.IDF指标哈希函数索引磁盘存储幂定律 * 数据挖掘定义数据挖掘（Data mining）是数据“模型”的发现过程。数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。 data mining (sometimes called data or knowledge discovery) is the process of analyzing data from different perspectives and summarizing it into useful information - information that can be used to increase revenue, cuts costs, or both. 相关知识邦弗朗尼原理 TF.IDF指标哈希函数索引磁盘存储幂定律邦弗朗尼原理假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机，也可以期望该类型事件会发生。任何随机数据往往都会有一些不同寻常的特征，这些特征看上去虽然很重要，但是实际上并不重要，除此之外，别无他由，从这个意义上说，这些事件的出现纯属“臆造”。邦弗朗尼原理别指望通过大规模统计来发现一些很“稀有”的事情或者规律。例：利用数据挖掘来抓恶人假设我们确信在某个地方有一群恶人，目标是把他们揪出来。再假定我们有理由相信，这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模，我们再给出如下假设：邦弗朗尼原理例子 (1) 恶人数目可能有10亿； (2) 每个人每100天当中会有一天去宾馆； (3) 一个宾馆最多容纳100个人。因此，100 000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆； (4) 我们将对1000天的宾馆入住记录进行核查。给定某天，任意两个人都决定去宾馆的概率为0.000 1，而他们入住同一宾馆的概率应该在0.000 1基础上除以105（宾馆的数量）。因此，在给定某天的情况下，两个人同时入住同一宾馆的概率是10-9。而在任意给定的不同的两个日子，两人入住同一宾馆的概率就是10-9的平方，即10-18。上例中，“事件”的含义是指“两个人在两天中的每一天入住相同宾馆”。因此在109中的人员组对个数为，而在1000天内任意两天的组合个数为邦弗朗尼原理例子疑似作恶事件的期望数目应该是上述两者的乘积再乘上“两个人在两天中的每一天入住相同宾馆”的概率，结果为 TF.IDF指标应用场景：根据主题对文档（词语的序列）进行分类。步骤：分类的第一步往往是考察文档并从中找出重要的词语。事实上，描述主题的词语往往都相对罕见。但是，并非所有罕见词在做指示词时都同等重要。 TF.IDF指标这种度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF（TF指词项频率，是Term Frequency的缩写，IDF指逆文档频率，是Inverse Document Frequency的缩写，TF.IDF表示词项频率乘以逆文档频率）。假定文档集中有N篇文档，fij为词项i在文档j中出现的频率（即次数），于是，词项i在文档j中的词项频率TFij定义为通过fij除以同一文档中出现最多的词项（可能不考虑停用词的频率）的频率来计算词项i在文档j中的词项频率。 TF.IDF指标计算 TF.IDF指标计算假定词项i在文档集的ni篇文档中出现，那么词项i的IDF定义如下：于是，词项i在文档j中的得分被定义为TFij×IDFi，具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项。哈希函数特点哈希函数h的输入是一个哈希键值（hash-key），输出是一个桶编号（bucket number）。哈希函数的一个直观性质是它们将哈希键值“随机化”（randomize）。更精确地说，如果哈希键值随机地从某个合理的可能的哈希键分布中抽样而成，那么函数h将会把数目近似相等的哈希键值分配到每个桶中。（当所有可能的哈希键值数目多于桶数目B时）哈希函数例子 h(x) = x mod B，即x除以B之后的余数。如果哈希键的总体是所有的正整数如果哈希键只能是偶数值，并且如果B=10 通常都首选将B取为素数。尽管这种情况下我们还必须要考虑所有的哈希键以B为因子的可能性，但是上述选择方法减少了非随机行为的可