- 1
- 0
- 约3.35千字
- 约 35页
- 2016-02-26 发布于湖北
- 举报
二级存储器 从磁盘读入数据的时间是从内存读入数据的100000倍。磁盘读入数据的时间大约是10毫秒。 如果需要读取的数据在磁盘上的一个柱面上,则读入一批数据时不需要转动磁头,则读入每块数据的时间可以小于10毫秒。 * * 1.3.6 幂律分布 随机变量的概率分布可以写为 Y=c Xa Log y=b+a log(x) 变量的横轴和纵轴取对数后,是一条直线 * * 1.3.6 幂律分布 Web图中的节点度 商品的销量 Web网站的大小 词在文档中的分布 * * 1.3.6 幂律分布 原因来自于马太效应 某网站有较多的输入链接,将导致更多的人找到他,从而获得更多的输入链接 * * * * * 大数据的存贮和处理 * * 课程内容 概述 大规模文件系统和Mapreduce 相似项发现 数据流挖掘 链接分析 频繁项集 聚类 Web广告 推荐系统 教材 /~ullman/mmds/book.pdf 大数据-互联网大规模数据挖掘与分布式处理 / * * * * 第一章数据挖掘的基本概念 1·1 数据挖掘的定义 1.2 数据挖掘的统计限制 1·3 相关知识 数据挖掘的定义 数据挖掘是数据模型的发现过程。 什么是模型? 统什模型: 研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合 机器学习。 将数据当作某类算
您可能关注的文档
最近下载
- 广西百色市平果市2024届小升初素养语文检测卷含答案.doc VIP
- 广西南宁市兴宁区2023年小升初语文试卷.doc VIP
- 李姓起源与分布.doc VIP
- 人教(PEP)小学六年级英语上册知识汇总.docx VIP
- 2024年广西南宁市横县小升初素养语文检测卷含答案.doc VIP
- 人教PEP版五年级英语下册知识点归纳.pdf VIP
- 2025届广西壮族南宁市上林县六年级下学期小升初真题精选数学试卷含解析.doc VIP
- DZ∕T 0447-2023 岩溶塌陷调查规范(1:50000).pdf
- 二阶系统性能改善及稳定性.pdf VIP
- 2025中国居民平衡膳食宝塔ppt全新PPT.pptx VIP
原创力文档

文档评论(0)