- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据的存贮和处理**
课程内容?概述?大规模文件系统和Mapreduce?相似项发现?数据流挖掘?链接分析?频繁项集?聚类?Web广告推荐系统**
教材?/~ullman/mmds/book.pdf?大数据-互联网大规模数据挖掘与分布式处理**
第一章数据挖掘的基本概念?1·1数据挖掘的定义?1.2数据挖掘的统计限制?1·3相关知识**
数据挖掘的定义?数据挖掘是数据模型的发现过程。?什么是模型?–统什模型:?研究可见数据遵从的总体概率分布。如已有一系列数据,先猜想服从高斯分布,从数据获取模型参数,验证与数据分布是附合–机器学习。?将数据当作某类算法的训练集训练算法。然后再用这个算法分析未知的数据
什么是模型??机器学习的长处。当对要在数据中寻找的目标一无所知的时候。如不知道是哪些因素影响人们对影片的喜好。netflix竞赛。?如目标能明确描述,机器学习方法并不成功。如在web上寻找个人简历。机器学习方法.不如关键词或者短语更准确,**
建模的计算方法?数据挖掘已被看成是一个算法问题。数据模型就是提供复杂查询的答案。?除了统计建模,其它大部分建模方法可分为如下两类–对数据进行简要汇总–从数据中抽取最突出的特征来代替数据并将剩余内容忽略。**
数据汇总?pagerank。谷歌成功的关键算法之一。Web的复杂结构可以由每个页面的pagerank描述,反映了一个web上的随机游走者在任意时刻处于该页面的概率。?聚类。数据被看成是多维空间的点。空间相互邻近的点被认为是相同的类别。每个类别可以析括表示,如质心或者是到质心的平均距离。**
**
特征抽取?从数据中寻找某个现象的特殊样例,用这些样例来表示数据。介绍两种方法:–频繁项集:在很多购物篮/订单里面寻找同时出现的项集/商品。–相似项:数据可以描述为一系列的集合。寻找共同元素较多的集合。亚马逊网站的顾客可以理解为他购买商品的集合。寻找相似的集合也就是寻找具有类似兴趣的人,把这些人购买过的东西推荐给该顾客。也称为协同过滤**
数据挖掘的统计限制?2002年,布什政府提出一项对所有数据进行挖掘的计划,没有被国会通过。目的是追逐恐怖活动?问题:如果能够获得所有的数据,并且想从中获得恐怖活动的信息。是否会导致误报很多无辜的行为?**
Bonferroni’sPrinciple?随着数据规模的增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去非常重要,实际上却并不重要。?Bonferroni’sPrinciple。在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件是假象。**
关于整体情报预警的故事?设有一群坏人会偶尔在酒店聚会策划阴谋?想找出那些同一天在同一个酒店至少出现两次的人群.13
假设?109可疑人.?1000days.?每个人去酒店的概率1%(1000天里住10天酒店).?酒店容纳100人(有10个酒店).5?每个人行为都是随机的。数据挖掘能发现可疑行为吗?14
Calculations–(1)qatpatsomesomehotelhotelSamehotel?人员p和人员q同一天在同一个酒店出现的概率:–1/100?1/100?10-5=10-9.?人员p和q在d和d出现在同一个酒店的12概率:–10-9?10-9=10-18.?1000天任意两天的排列组合:–5?10.515
Calculations–(2)?人员p和q在任意两天出现在同一个酒店的概率:–5?10?10-18=5?10-13.5?可能的人数是10亿,任意两个人的排列组合是:–5?1017.?平均可疑的人员对的数目:–5?1017?5?10-13=250,000.?实际上他们是纯随机导致的巧合16
结论?假设真的有10对坏人在同一个酒店出现两次.?需要扫描250,010对候选人才能找出这10对坏人.–这个方法好吗?17
小结?寻找某个性质的事件的时候(如,“两个人在同一个旅馆出现了两次”),需要考虑纯随机性是否会产生多个具有这个性质的事件。18
RhineParadox–(1)?JosephRhine是1950年代的心理学家,他猜想某些人有超感知能力.?他设计了一个实验:要求实验对象猜10张隐藏的卡片的颜色:–红或者蓝??他发现1000个人里面有1个具有超感知能力–能猜对所有10张卡片的颜色!19
RhineParadox–(2)?他告诉这些人他们有超能力,并要求他们再做一次同样
您可能关注的文档
- 2024安徽岳西县面向优秀村党组织书记招聘乡镇事业编制人员3人历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽桐城市招聘市属国企业高级经营管理者工作【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽池州事业单位解析大会讲座历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽池州市贵池区个体税收综合服务中心招聘历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽池州贵池区事业单位招聘历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽淮北市相山区住房和城乡建设局事业单位招聘14人历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽淮南市凤台县引江济淮工程领导小组办公室招聘4人历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽淮南矿业集团招聘53人【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽滁州市南谯区事业单位招聘书历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2024安徽滁州市明光市事业单位招聘历年【高频考点汇总500题】模拟卷及参考答案详解.docx
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)