大数据技术概述.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据技术

1.什么是数据挖掘,什么是机器学习:

什么是机器学习

关注的问题:计算机程序如何随着经枳累自动提高性能:

研究计算机怎样模拟或比现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自

身的性能;

通过输入和输出,来训练一个模型。

□数据挖掘(商务智能)

■通过特定的算法对大量的数据|进行自动分析,揭示

数据中隐藏的历史规律和未来发展趋势,为决策者

提供参考

口加器学习(人工智能):尽可能减少人的影响

■通过给机器“嘿取”数据,让机器像人一样通过学

习逐步自我提高、兔善,使挖掘和预测更准确

2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层

3.传统的机器学习流程

预处理-》特征提取-》特征选择一》再到推理-》预测或者识别。

手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,如果数据被很好的表达成了特征,通常线性

模型就能到达满意的精度。

4.大数据分析的主要思想方法

4.1三个思维上的转变

关注全集(不是随机样本而是全体数据):面临大规模数据时,依赖于采样分析;统计学习的目的一一用尽可能

少的数据来证实尽可能重大的发现;大数据是指不用随机分析这样的捷径,而是采用大局部或全体数据。

关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效

关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核

心是量化两个数据值之间的数理关系,关联物是预测的关键。

4.2数据创新的思维方式

可量亿是数据的核心特征将(所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类

最有价值的信息:位置信息、信令信息及网管和日志。

数据混搭为创造新应用提供了重要支持。

数据坟墓:提供数据效劳,其他人都比我聪明!

数据废气:是用户在线交互的副产品,包括了浏览的页面,停留了多久,鼠标光标停留的位置、输入的信息。

4.3大数据分析的要素

人数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。

5.数据化与数字化的区别

数据亿:将现象转变为可制表分析的量化形式的过程;

数字化:将模拟数据转换成使用0、1表示的二进制码的过程

6.基于协同过滤的推荐机制

基于协同过滤的推荐(这种机制是现今应用最为广泛的推荐机制)一一基于模型的推荐S(VM、聚类、潜在语义

分析、贝叶斯网络、线性回归、逻辑回归)

余弦距离(又称余弦相似度):表示是否有相同的倾向

欧几里得距离(又称欧几里得相似度):表示绝对的距离

这种推荐方法的优缺点:

它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推荐是开放的,可共用他

人的经验,很好的支持用户发现潜在的兴趣偏好。

数据稀疏性问题,大量的用户只是评价了一小局部的工程,而大多数的工程是没有进行评分;冷启动问题,新物

品和新用户依赖于用户历史偏好数据的多少和准确性,一些特殊品味的用户不能给予很好的推荐。

7.机器学习:构建复杂系统的可能方法/途径

机器学习使用场景的核心三要素:存在潜在模式、不容易列出规贝!并编程实现、有历史的数据

8.机器学习的基础算法之PLA算法和Pocket算法贪(心PLA)

感知港一一线二维分类器,都属于二分类算法

二者的区别:迭代过程有所不同,结束条件有所不同;

证明了线口J分的情况卜是PLA和Pocket可以收敛。

9,机器为什么能学习

W^n)+Xn]In-sampleerrorE(h)

in

WX)^f(xnOut-of-sampleerrorE^fh)

学习过程被分解为两个问题:

能否确保Eout(g)与Ein(g)足够相似?

能否

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档