大数据的挖掘精选.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的挖掘精选

大数据的挖掘 摘要:大数据关注大量的,复杂的和增长的有多样的和自主来源的数据的集合。随着网络数据存储和数据收集能力的快速发展,大数据扩展到所有的科学和工程领域中去,包括物理学、生物学和生物医学。本文介绍了一个HACE理论,这个理论描述了大数据革命的特征,从数据驱动模型包括需求驱动的信息来源聚集,挖掘和分析,用户兴趣建模和安全隐私方面的考虑。我们将在数据驱动模型和大数据革命下分析这些挑战性的课题。 莫言博士获得了2012年的诺贝尔文学奖。这可能是这奖项最具争议的诺贝尔奖。在谷歌搜索“Yan Mo Nobel Prize”,结果有1,050,000条网络连接。最近莫言说“对于所有支持和批评,我都感谢。”在他31年的写作生涯中,事实上他收到的多少的支持和批评呢?在各种新媒体中评论仍然持续出现,我们总结在不同的实时媒体中所有种类的观点,包括通过批评更新的和互相参考的评论?这种摘要程序是一个非常好的大数据处理的例子,正如信息来自多样的、异构的和自治的来源,这些具有复杂和进化的关系以及持续的增长。 通过上面的例子,大数据时代已经来临,每天有大量字节的数据创造出来,世界上百分之九十的数据是过去两年中产生的。自从19世纪信息技术发明以后,我们的数据存储能力从来没有如此的力量和巨大。另外一个例子,在2012年10月4日,在奥巴马和罗姆尼第一次总统辩论在两小时内引起了超过一千万条的推特。在所有这些推特中,那些特别的被讨论最多的评论事实上透露了大众的兴趣,例如关于医保和付款凭单的讨论。这些网上讨论提供了一种新的方法去感受公众的兴趣并且实时给出反馈,这几乎对电视广播这些普通媒体的比较。另外一个例子是Flicker,一个公共图片分享网站,从2012年1月到3月间,平均每天收到180万张照片。假设每张照片是2MB,这就每天需要3.6TB的存储量。的确,正如一句谚语说的:“一张图胜过一千句话。”如果我们有能力来驾驭这些大量的数据,在Flicker的上百万张图片对我们来说就是一个财富宝库,用来探索人类社会,社会事件,公共事件和灾难等。 以上的例子表明了大数据应用的增长,在数据收集以惊人的速度增长和以超过一般应用软件能力来采集和管理,并在可允许的时间内完成。大数据应用最基本的挑战是探索广阔的数据并提取出对未来动向有用的信息和知识,在许多情况下,知识的提取过程一定是很有效率的并且趋于实时的,因为存储所有观察过的数据几乎是不可行的。比如,在射电天文学中的平方千米阵列在5公里范围内由1000—1500个15米直径的碟形天线构成。在解答基本的宇宙问题中,它提供超过任何存在射电望远镜100倍的灵敏视野。但是,每秒产生40GB的数据量,这些射电望远镜产生的数据集是相当大的。尽管研究人员确定从SKA数据中发现有趣的射电异常样本,现有的办法只能在挂线下工作,在实时处理这种大数据集市无计可施的。因此,这些空前的数据量需要有效地数据分析和预测平台来获得这种大数据的快速响应和实时分类。 本文剩余结构:在第二节中,中我们给出了一个建模大数据特征的HACE原理。第3节简单阐述数据挖掘中的重要挑战。一些重要研究方案和作者在这个领域的研究项目将在第4节给出。在第5节将讨论相关工作,最后将在第6节给出我们的结论。 2 大数据特征:HACE原理 大数据起始于大量数据,异构的,分散式的和离散控制的自治资源,从这些数据中追求去探索复杂和进化的关系。 这些特征使得大数据中发现有用的知识是个极端的挑战。从一个单纯角度看,我们能想象很多盲人努力估计一头大象的大小,在这背影下就是大数据。每个盲人的目标是根据在这过程中收集的那部分信息,来描述大象。因为每个人的视角局限在他自己的区域,所以每个盲人独立得出大象像绳子,水管或一堵墙的结论并不奇怪,这是取决于它的受限制的位置。为了使问题变得更复杂,让我们假设1)大象正在迅速生长,它的姿势也会不停地变化,2)每个盲人有他自己的信息资源(可能是不可信的和无准备的),这信息会告诉他关于大象的基本信息(例如,盲人之间交换他们对于大象的感觉,这基于固定的知识交换)。这种探索大数据的方案相当于从不同来源聚集异构性的信息来帮助描绘出一个最有可能的图景去揭示大象真正的实时姿势。当然,这个任务并不是像让每个盲人描述他们对于大象的感受那么简单,然后得到一个专家用组合的视角画出唯一的图像,包括每个人可能讲不同的语言(异构的和分散的信息源)并且他们可能在信息交换过程中慎重地考虑信息隐私问题。 2.1具有异构性的和不同维度的大数据 大数据的一个基本特征是由异构的和分散的大量数据代表。这是因为不同的信息收集者倾向于用他们自己的计划和协议来记录数据,当然不同的应用也会产生不同的数据表现。例如,在生物医学世界中,每个人都可以用简单的人口统计学的信息来代表,比如性别,年龄,家族病史等等。对一个人

文档评论(0)

tazhiq2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档