大数据技术概述.pdfVIP

下载本文档

2
0
约3.84万字
约 34页
2025-06-17 发布于河北
举报
版权申诉

大数据技术概述.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据技术

1.什么是数据挖掘，什么是机器学习：

什么是机器学习

关注的问题：计算机程序如何随着经枳累自动提高性能：

研究计算机怎样模拟或比现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自

身的性能；

通过输入和输出，来训练一个模型。

□数据挖掘（商务智能）

■通过特定的算法对大量的数据|进行自动分析，揭示

数据中隐藏的历史规律和未来发展趋势，为决策者

提供参考

口加器学习（人工智能）：尽可能减少人的影响

■通过给机器“嘿取”数据，让机器像人一样通过学

习逐步自我提高、兔善，使挖掘和预测更准确

2.大数据分析系统层次结构：应用层、算法层、系统软件层、基础设施层

3.传统的机器学习流程

预处理-》特征提取-》特征选择一》再到推理-》预测或者识别。

手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，如果数据被很好的表达成了特征，通常线性

模型就能到达满意的精度。

4.大数据分析的主要思想方法

4.1三个思维上的转变

关注全集（不是随机样本而是全体数据）：面临大规模数据时，依赖于采样分析；统计学习的目的一一用尽可能

少的数据来证实尽可能重大的发现；大数据是指不用随机分析这样的捷径，而是采用大局部或全体数据。

关注概率（不是精确性而是概率）：大数据的简单算法比小数据的复杂算法更有效

关注关系（不是因果关系而是相关关系）：建立在相关关系分析法基础上的预测是大数据的核心，相关关系的核

心是量化两个数据值之间的数理关系，关联物是预测的关键。

4.2数据创新的思维方式

可量亿是数据的核心特征将（所有可能与不可能的信息数据化）；挖掘数据潜在的价值是数据创新的核心；三类

最有价值的信息：位置信息、信令信息及网管和日志。

数据混搭为创造新应用提供了重要支持。

数据坟墓：提供数据效劳，其他人都比我聪明！

数据废气：是用户在线交互的副产品，包括了浏览的页面，停留了多久，鼠标光标停留的位置、输入的信息。

4.3大数据分析的要素

人数据“价值链”构成：数据、技术与需求（思维）；数据的价值在于正确的解读。

5.数据化与数字化的区别

数据亿：将现象转变为可制表分析的量化形式的过程；

数字化：将模拟数据转换成使用0、1表示的二进制码的过程

6.基于协同过滤的推荐机制

基于协同过滤的推荐（这种机制是现今应用最为广泛的推荐机制）一一基于模型的推荐S（VM、聚类、潜在语义

分析、贝叶斯网络、线性回归、逻辑回归）

余弦距离（又称余弦相似度）：表示是否有相同的倾向

欧几里得距离（又称欧几里得相似度）：表示绝对的距离

这种推荐方法的优缺点：

它不需要对物品或者用户进行严格的建模，而且不要求物品的描述是机器可理解的；推荐是开放的，可共用他

人的经验，很好的支持用户发现潜在的兴趣偏好。

数据稀疏性问题，大量的用户只是评价了一小局部的工程，而大多数的工程是没有进行评分；冷启动问题，新物

品和新用户依赖于用户历史偏好数据的多少和准确性，一些特殊品味的用户不能给予很好的推荐。

7.机器学习：构建复杂系统的可能方法/途径

机器学习使用场景的核心三要素：存在潜在模式、不容易列出规贝!并编程实现、有历史的数据

8.机器学习的基础算法之PLA算法和Pocket算法贪（心PLA）

感知港一一线二维分类器，都属于二分类算法

二者的区别：迭代过程有所不同，结束条件有所不同；

证明了线口J分的情况卜是PLA和Pocket可以收敛。

9,机器为什么能学习

W^n)+Xn]In-sampleerrorE(h)

WX)^f(xnOut-of-sampleerrorE^fh)

学习过程被分解为两个问题：

能否确保Eout(g)与Ein(g)足够相似？

能否

您可能关注的文档

文档评论（0）

pengyou2017 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据技术概述.pdfVIP