火龙果大数据的存贮和处理创新.pptVIP

下载本文档

1
0
约3.35千字
约 35页
2016-02-26 发布于湖北
举报

火龙果大数据的存贮和处理创新.ppt

二级存储器从磁盘读入数据的时间是从内存读入数据的100000倍。磁盘读入数据的时间大约是10毫秒。如果需要读取的数据在磁盘上的一个柱面上，则读入一批数据时不需要转动磁头，则读入每块数据的时间可以小于10毫秒。 * * 1.3.6 幂律分布随机变量的概率分布可以写为 Y=c Xa Log y=b+a log(x) 变量的横轴和纵轴取对数后，是一条直线 * * 1.3.6 幂律分布 Web图中的节点度商品的销量 Web网站的大小词在文档中的分布 * * 1.3.6 幂律分布原因来自于马太效应某网站有较多的输入链接，将导致更多的人找到他，从而获得更多的输入链接 * * * * * 大数据的存贮和处理 * * 课程内容概述大规模文件系统和Mapreduce 相似项发现数据流挖掘链接分析频繁项集聚类 Web广告推荐系统教材 /~ullman/mmds/book.pdf 大数据-互联网大规模数据挖掘与分布式处理 / * * * * 第一章数据挖掘的基本概念 1·1 数据挖掘的定义 1.2 数据挖掘的统计限制 1·3 相关知识数据挖掘的定义数据挖掘是数据模型的发现过程。什么是模型？统什模型: 研究可见数据遵从的总体概率分布。如已有一系列数据，先猜想服从高斯分布，从数据获取模型参数，验证与数据分布是附合机器学习。将数据当作某类算

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

火龙果大数据的存贮和处理创新.pptVIP