- 7
- 0
- 约3.36千字
- 约 35页
- 2017-05-30 发布于北京
- 举报
二级存储器 从磁盘读入数据的时间是从内存读入数据的100000倍。磁盘读入数据的时间大约是10毫秒。 如果需要读取的数据在磁盘上的一个柱面上,则读入一批数据时不需要转动磁头,则读入每块数据的时间可以小于10毫秒。 * * 1.3.6 幂律分布 随机变量的概率分布可以写为 Y=c Xa Log y=b+a log(x) 变量的横轴和纵轴取对数后,是一条直线 * * 1.3.6 幂律分布 Web图中的节点度 商品的销量 Web网站的大小 词在文档中的分布 * * 1.3.6 幂律分布 原因来自于马太效应 某网站有较多的输入链接,将导致更多的人找到他,从而获得更多的输入链接 * * * * * 大数据的存贮和处理 赵永祥 * * 课程内容 概述 大规模文件系统和Mapreduce 相似项发现 数据流挖掘 链接分析 频繁项集 聚类 Web广告 推荐系统 教材 /~ullman/mmds/book.pdf 大数据-互联网大规模数据挖掘与分布式处理 / * * * * 第一章数据挖掘的基本概念 1·1 数据挖掘的定义 1.2 数据挖掘的统计限制 1·3 相关知识 数据挖掘的定义 数据挖掘是数据模型的发现过程。 什么是模型? 统什模型: 研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合 机器学习。 将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据 * * 什么是模型? 机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。 如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确, * * 建模的计算方法 数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。 除了统计建模,其它大部分建模方法可分为如下两类 对数据进行简要汇总 从数据中抽取最突出的特征来代替数据并将剩余内容忽略。 * * 数据汇总 pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。 聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。 * * * * 特征抽取 从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法: 频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。 相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤 数据挖掘的统计限制 2002年,布什政府提出一项对所有数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动 问题:如果能够获得所有的数据,并且想从中获得恐怖活动的信息。是否会导致误报很多无辜的行为? * * Bonferroni’s Principle 随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。 Bonferroni’s Principle。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件是假象。 * * * 关于整体情报预警的故事 设有一群坏人会偶尔在酒店聚会策划阴谋 想找出那些同一天在同一个酒店至少出现两次的人群. * 假设 109 可疑人. 1000 days. 每个人去酒店的概率 1% (1000天里住10天酒店). 酒店容纳100 人 (有 105 个酒店). 每个人行为都是随机的。数据挖掘能发现可疑行为吗? * Calculations – (1) 人员 p 和人员 q 同一天在同一个酒店出现的概率 : 1/100 ? 1/100 ? 10-5 = 10-9. 人员p 和 q 在d1 和 d2 出现在同一个酒店的概率: 10-9 ? 10-9 = 10-18. 1000天任意两天的排列组合: 5?105. p at some hotel q at some hotel Same hotel * Calculations – (2) 人员 p 和 q 在任意两天出现在同一个酒店的概率: 5?105 ? 10-18 = 5?10-13. 可能的人数是10亿,任意两个人的排列组合是: 5?1017. 平均可疑的人员对的数目: 5?1017 ? 5?10-13 = 250,000. 实际上他们是纯随机导致的巧合 * 结论 假设真的有10 对坏人在同一个酒店出现两次. 需
您可能关注的文档
- 初二数学(含2016年中考题)第11章数的开方重热点突破练习题及答案.ppt
- 大学生的人格发展.ppt
- 大学生的恋爱观(演讲).ppt
- 大学生的环保意识.ppt
- 初二数学(含2016年中考题)第15章数据的收集与表示周末练习题及答案.ppt
- 大学生给家里打电话情况调查报告.ppt
- 初二数学10.2 分式的基本性质(1)课件.ppt
- 大学生职业生涯规划第五章艺不压身——大学生的职业能力.ppt
- 大学生舍己救人探讨.ppt
- 初二数学10.3分式的加减课件.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 西师版五年级数学下册全套电子教案(表格式)(最全).doc VIP
- 2025年AWS认证CloudFront与Route53延迟_地理路由缓存行为专题试卷及解析.pdf VIP
- 2025年互联网营销师元宇宙互动剧本杀与沉浸式剧情营销专题试卷及解析.pdf VIP
- 2025年房地产经纪人投资回报率与投资回报率自动化分析专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照国际民航组织(ICAO)标准专题试卷及解析.pdf VIP
- 井下中央变电所高压开关整定计算说明书.pdf
- 2025年房地产经纪人商品房交付条件与标准专题试卷及解析.pdf VIP
- 异位妊娠护理教学查房【40页】.pptx VIP
- PLC-S7-200-SMART-与LabVIEW-OPC-以太网通信.pdf VIP
- 全球百强创新集群排行榜.pdf VIP
原创力文档

文档评论(0)