大数据互联网大规模数据挖掘与分布式处理模板.ppt

下载文档 降价啦

6
0
约2.81千字
约 22页
2021-01-25 发布于天津
举报
版权申诉
保障服务

大数据互联网大规模数据挖掘与分布式处理模板.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据：互联网大规模数据挖掘与分布式处理第一章数据挖掘基本概念目录 ? 数据挖掘定义 ? 相关知识 – 邦弗朗尼原理 – TF.IDF 指标 – 哈希函数 – 索引 – 磁盘存储 – 幂定律 3 数据挖掘定义 ? 数据挖掘（ Data mining ）是数据 “模型”的发现过程。 ? 数据挖掘 (DataMining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程 , 提取的知识表示为概念、规则、规律、模式等形式。也可以说 , 数据挖掘是一类深层次的数据分析。 ? data mining (sometimes called data or knowledge discovery) is the process of analyzing data from different perspectives and summarizing it into useful information - information that can be used to increase revenue, cuts costs , or both. 相关知识 ? 邦弗朗尼原理 ? TF.IDF 指标 ? 哈希函数 ? 索引 ? 磁盘存储 ? 幂定律邦弗朗尼原理 ? 假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机，也可以期望该类型事件会发生。 ? 任何随机数据往往都会有一些不同寻常的特征，这些特征看上去虽然很重要，但是实际上并不重要，除此之外，别无他由，从这个意义上说，这些事件的出现纯属“臆造”。邦弗朗尼原理 ? 别指望通过大规模统计来发现一些很 “稀有”的事情或者规律。 ? 例：利用数据挖掘来抓恶人 – 假设我们确信在某个地方有一群恶人，目标是把他们揪出来。再假定我们有理由相信，这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模，我们再给出如下假设：邦弗朗尼原理例子 ? (1) 恶人数目可能有 10 亿； ? (2) 每个人每 100 天当中会有一天去宾馆； ? (3) 一个宾馆最多容纳 100 个人。因此， 100 000 个宾馆已足够容纳 10 亿人中的 1% 在某个给定的日子入住宾馆； ? (4) 我们将对 1000 天的宾馆入住记录进行核查。 ? 给定某天，任意两个人都决定去宾馆的概率为 0.000 1 ，而他们入住同一宾馆的概率应该在 0.000 1 基础上除以 105 （宾馆的数量）。因此，在给定某天的情况下，两个人同时入住同一宾馆的概率是 10-9 。而在任意给定的不同的两个日子，两人入住同一宾馆的概率就是 10-9 的平方，即 10-18 。 ? 上例中，“事件”的含义是指 “两个人在两天中的每一天入住相同宾馆”。因此在 109 中的人员组对个数为，而在 1000 天内任意两天的组合个数为邦弗朗尼原理例子疑似作恶事件的期望数目应该是上述两者的乘积再乘上 “两个人在两天中的每一天入住相同宾馆”的概率，结果为 TF.IDF 指标 ? 应用场景：根据主题对文档（词语的序列）进行分类。 ? 步骤： – 分类的第一步往往是考察文档并从中找出重要的词语。 – 事实上，描述主题的词语往往都相对罕见。但是，并非所有罕见词在做指示词时都同等重要。 TF.IDF 指标 ? 这种度量给定词语在少数文档中反复出现程度的形式化指标称为 TF.IDF （ TF 指词项频率，是 Term Frequency 的缩写， IDF 指逆文档频率，是 Inverse Document Frequency 的缩写， TF.IDF 表示词项频率乘以逆文档频率）。 ? 假定文档集中有 N 篇文档， fij 为词项 i 在文档 j 中出现的频率（即次数），于是，词项 i 在文档 j 中的词项频率 TFij 定义为 ? 通过 fij 除以同一文档中出现最多的词项（可能不考虑停用词的频率）的频率来计算词项 i 在文档 j 中的词项频率。 TF.IDF 指标计算 TF.IDF 指标计算 ? 假定词项 i 在文档集的 ni 篇文档中出现，那么词项 i 的 IDF 定义如下： ? 于是，词项 i 在文档 j 中的得分被定义为 TFij × IDFi