大数据互联网大规模数据挖掘与分布式处理模板.ppt

大数据互联网大规模数据挖掘与分布式处理模板.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据: 互联网大规模数据挖掘与分布式处理 第一章 数据挖掘基本概念 目录 ? 数据挖掘定义 ? 相关知识 – 邦弗朗尼原理 – TF.IDF 指标 – 哈希函数 – 索引 – 磁盘存储 – 幂定律 3 数据挖掘定义 ? 数据挖掘( Data mining )是数据 “模型”的发现过程。 ? 数据挖掘 (DataMining) 就是从大量的、 不完全的、有噪声的、模糊的、随机 的数据中 , 提取隐含在其中的、人们 事先不知道的但又是潜在有用的信息 和知识的过程 , 提取的知识表示为概 念、规则、规律、模式等形式。也可 以说 , 数据挖掘是一类深层次的数据 分析。 ? data mining (sometimes called data or knowledge discovery) is the process of analyzing data from different perspectives and summarizing it into useful information - information that can be used to increase revenue, cuts costs , or both. 相关知识 ? 邦弗朗尼原理 ? TF.IDF 指标 ? 哈希函数 ? 索引 ? 磁盘存储 ? 幂定律 邦弗朗尼原理 ? 假定人们有一定量的数据并期望从该 数据中找到某个特定类型的事件。即 使数据完全随机,也可以期望该类型 事件会发生。 ? 任何随机数据往往都会有一些不同寻 常的特征,这些特征看上去虽然很重 要,但是实际上并不重要,除此之外, 别无他由,从这个意义上说,这些事 件的出现纯属“臆造”。 邦弗朗尼原理 ? 别指望通过大规模统计来发现一些很 “稀有”的事情或者规律。 ? 例:利用数据挖掘来抓恶人 – 假设我们确信在某个地方有一群恶人, 目标是把他们揪出来。再假定我们有理 由相信,这些恶人会定期在某个宾馆聚 会来商讨他们的作恶计划。为限定问题 的规模,我们再给出如下假设: 邦弗朗尼原理例子 ? (1) 恶人数目可能有 10 亿; ? (2) 每个人每 100 天当中会 有一天去宾馆; ? (3) 一个宾馆最多容纳 100 个人。因此, 100 000 个宾 馆已足够容纳 10 亿人中的 1% 在某个给定的日子入住宾馆; ? (4) 我们将对 1000 天的宾馆 入住记录进行核查。 ? 给定某天,任意两个人都 决定去宾馆的概率为 0.000 1 ,而他们入住同一宾馆的 概率应该在 0.000 1 基础上 除以 105 (宾馆的数量)。 因此,在给定某天的情况 下,两个人同时入住同一 宾馆的概率是 10-9 。而在 任意给定的不同的两个日 子,两人入住同一宾馆的 概率就是 10-9 的平方,即 10-18 。 ? 上例中,“事件”的含义是指 “两个人在两天中的每一天入 住相同宾馆”。因此在 109 中 的人员组对个数为, 而在 1000 天内任意两天的组合 个数为 邦弗朗尼原理例子 疑似作恶事件的期望数目应 该是上述两者的乘积再乘上 “两个人在两天中的每一天 入住相同宾馆”的概率,结 果为 TF.IDF 指标 ? 应用场景:根据主题对文档(词语的 序列)进行分类。 ? 步骤: – 分类的第一步往往是考察文档并从中找出 重要的词语。 – 事实上,描述主题的词语往往都相对罕见。 但是,并非所有罕见词在做指示词时都同 等重要 。 TF.IDF 指标 ? 这种度量给定词语在少数文档中反复 出现程度的形式化指标称为 TF.IDF ( TF 指词项频率,是 Term Frequency 的缩写, IDF 指逆文档频率,是 Inverse Document Frequency 的缩写, TF.IDF 表示词项频率乘以逆文档频 率)。 ? 假定文档集中有 N 篇文档, fij 为词项 i 在文档 j 中出现的频率(即次数),于是,词项 i 在 文档 j 中的词项频率 TFij 定义为 ? 通过 fij 除以同一文档中出现最多的词项(可 能不考虑停用词的频率)的频率来计算词项 i 在文档 j 中的词项频率。 TF.IDF 指标计算 TF.IDF 指标计算 ? 假定词项 i 在文档集的 ni 篇文档中出现, 那么词项 i 的 IDF 定义如下: ? 于是,词项 i 在文档 j 中的得分被定义为 TFij × IDFi

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档