- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * 大数据建模与挖掘技术 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 课程内容 概述 大规模文件系统和Mapreduce 相似项发现 数据流挖掘 链接分析 频繁项集 聚类 Web广告 推荐系统 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. 教材 /~ullman/mmds/book.pdf 大数据-互联网大规模数据挖掘与分布式处理 / * * Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 第一章数据挖掘的基本概念 1·1 数据挖掘的定义 1.2 数据挖掘的统计限制 1·3 相关知识 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. 数据挖掘的定义 数据挖掘是数据模型的发现过程。 什么是模型? 统什模型: 研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合 机器学习。 将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 什么是模型? 机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。 如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确, Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 建模的计算方法 数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。 除了统计建模,其它大部分建模方法可分为如下两类 对数据进行简要汇总 从数据中抽取最突出的特征来代替数据并将剩余内容忽略。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 数据汇总 pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。 聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. * * 特征抽取 从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法: 频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。 相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. 数据挖掘的统计限制 2002年,布什政府
您可能关注的文档
最近下载
- 非ST段抬高型急性冠脉综合征诊断和治疗指南(2024)解读.pptx
- 造价咨询采购项目审计服务方案造价咨询方案审计工作要求及时限审计工作安排和保障措施对项目审计的总体分析.docx VIP
- 矿山井巷工程施工及验收规范GBJ213-90.doc
- 浙江省宁波市九校2024-2025学年高一上学期数学期末联考试卷.docx
- 林木委托管护合同.doc VIP
- XHJ-SCB-QR-026开机换线检查表.xls VIP
- 幼儿园书法练字启蒙第二讲完整课件.pptx VIP
- (完整版)千字文带拼音直接打印版.pdf
- 2025年广州中考英语二轮复习语法专项复习课件:专项整合复习一+名词篇.pptx VIP
- 宾馆食品安全知识培训.pptx
文档评论(0)