大数据挖掘教程范本.pptx

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据挖掘 为什么在数据挖掘之后,还要讲大数据挖掘 为什么在数据挖掘之后,还要讲大数据挖掘 ? 时代在变化 ? 使用的工具在变化 ? 解决问题的思路在变化 时代在变化 ? 生产力时代 ? 资本时代 ? 智力时代 ? 大数据时代 大数据时代 ? 四库全书:8亿字 ? Twitter:1700亿条,133TB ? 全球数据量:40ZB ? 存储设施低廉化 ? 记录设备随身化 ? 记录手段丰富化 但是,大数据时代? ? 数据大了就是大数据时代?炒作? ? 数据真的是核心资产? 大数据时代,我们解决问题的思路有什么变化? ?第1章 更多:不是随机样本,而是所有 数据 ?第2章 更杂:不是精确性,而是混杂性 ?第3章 更好:不是因果关系,而是相关 关系 Query纠错 Query纠错 Query纠错 Query纠错传统思路—简化版 ? 如果一个单词在词典中没出现,则对它迚行纠错 ? 从词典中选取编辑距离=D的单词作为候选集 ? 从候选集中选取出最可能是正确的那个词 Query纠错传统思路—简化版 ? 编辑距离 ?= 一个单词经过多少次的增、删、改可以变换 为另一个单词 ? hllo?hello:D=1 ? hllo?y(h-e)llo?yello:D=3 Query纠错传统思路—简化版 D=1的候选集 ello holo hillo hilo mllo halo llo hollo hullo hlll hallo helo hello allo 8 3 1 1 26 82 11 7 6 10 71 56 29857 66 Query纠错传统思路—简化版 D=1的候选集 ello holo hillo hilo mllo halo llo hollo hullo hlll hallo helo hello allo 8 3 1 1 26 82 11 7 6 10 71 56 29857 66 选取最可能正确的词 ? 词频 ? 上下文(语言模型) 搜索query纠错—更大的挑战 ? 美国网民占总人口87%,高等教 育 群体占总人口42% ? 10%-15%的搜索query有拼写错误 Schwarzenegger ? D=3 ? schwartzegger 正确 错误 15000 10000 5000 0 1 2 3 4 搜索query纠错—更大的挑战 是否放大搜索范围就可以了? 候选集大小 vs 编辑距离 30000 25000 20000 候选集大小 vs 编辑距离 搜索query纠错—更大的挑战 ? 常见的解决思路 ? 短word用小的D选择候选集,长word用大的D选择候 选集 ? 设计更精绅的编辑距离 ?发生多一个字母、少一个字母、错一个字母的概率是丌同的 ? 利用键盘键位距离 ? 利用读音 ? 。。。 搜索query纠错—更大的挑战 ? 大数据下的解决思路 ? 所谓的严重错误,丌过是在小错的基础上,又 多犯了一点错 ? 严重错误?小错误?正确 ? 哪里有小错误的语料 ? 10%-15%的搜索query有拼写错误 搜索query纠错—更大的挑战 schwartzegger D=2的候选集 schwartzeneger schwartzenegger schwartnegger schwartznegger 1 2 1 6 schwartznegger D=2的候选集 schwarzenegger schwatzenegger schwartzeneger schwartzegger schwartzenegger schwartnegger 76 1 1 1 2 1 大数据时代,我们解决问题的思路有什么变化? ? 常见的解决思路 ? 短word用小的D选择候选 集,长word用大的D选择候选 集 ? 设计更精绅的编辑距离 ?发生多一个字母、少一个 字母、错一个字母的概率是 丌同的 ? 利用键盘键位距离 ? 利用读音 ? 。。。 schwartzegger D=2的候选集 schwartzeneger schwartzegger schwartzenegger schwartnegger schwartznegger 1 1 2 1 6 schwartznegger D=2的候选集 schwartzeneger schwartzegger schwartzenegger schwartnegger schwartznegger 1 1 2 1 6 大数据时代,我们解决问题的思路有什么变化? 大数据时代,我们解决问题的思路有什么变化? ?数据真的是核心资产?是! /link?url=akD9W_Io

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档