第8章大数据探究.pptVIP

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8.1.1 大数据的特点 数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数据价值挖掘的关键。 经过数据的计算和处理后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析,最终找到数据内部隐藏的规律或者知识,从而体现数据的真正价值。 大数据的特点包括: 数据体量巨大 流动速度快 数据种类繁多 价值密度低 8.1.2 大数据的传统处理方法 统计分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。 统计分析是继统计设计、统计调查、统计整理之后,通过分析从而达到对研究对象更为深刻的认识。 统计分析是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。 统计分析可以分为5个步骤: 描述要分析的数据的性质。 研究基础群体的数据关系。 创建一个模型,总结数据与基础群体的联系。 证明(或否定)该模型的有效性。 采用预测分析来预测将来的趋势。 神经网络 神经网络是一种由大量的节点(或称“神经元”、“单元”)和之间相互联接构成的运算模型。 每个节点代表一种特定的输出函数,称为激励函数(Activation Function)。 每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(Weight),这相当于人工神经网络的记忆。 网络的输出随着网络的连接方式、权重值和激励函数的不同而不同。 神经网络是一个能够学习,能够总结归纳的系统,也就是说它能够通过已知数据的实验运用来学习和归纳总结。 基于内容推荐方法的优点是: 不需要其它用户的数据,没有冷开始问题和稀疏问题。 能为具有特殊兴趣爱好的用户进行推荐。 能推荐新的或不是很流行的项目,没有新项目问题。 通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 已有比较好的技术,如关于分类学习方面的技术已相当成熟。 缺点:要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。 协同过滤推荐 协同过滤推荐(Collaborative Filtering Recommendation)技术一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。 协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象。 基于协同过滤的推荐系统可以说是从用户的角度来进行相应的推荐,并且是自动的。 协同过滤的优点: 能够过滤难以进行机器自动内容分析的信息。 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念进行过滤。 有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。 能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。 基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。 基于效用的推荐(Utility-based Recommendation)是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数。 基于知识的推荐(Knowledge-based Recommendation)在某种程度上可以看作为一种推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的。 组合推荐(Hybrid Recommendation)。 研究和应用最多的是内容推荐和协同过滤推荐的组合。 最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。 基于模型的推荐原理 将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好的模型; 基于此模型计算相似度进行推荐。 8.3. 2 数据预处理 数据预处理方法一般包括:数据清洗,数据聚合,数据变换,数据归约等。 数据清洗:主要从填充空缺值,识别孤立点,消除噪声,并纠正数据中的不一致这几个方面来对原始数据集进行处理。 空缺值的处理及其实现方式 忽略元组 忽略属性列 人工填写空缺值 自动填充空缺值:包括三种策略: 使用全局常量填充空缺值,将空缺属性值用同常数替换。 使用属性的均值或期望值或者众数进行默认填充。 可以通过线性回归、基于推理的工具或者决策树归纳确定空缺值的可能值来进行填充。 噪声数据的清理方法 噪声数据是一个测量变量中的随机错误或偏差,其包含错误或孤立点值。 导致噪声产生的原因有多种: 采集设备出了故障; 数据录入或搜集

文档评论(0)

1112111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档