走进大数据时代.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四、空间大数据的存储 文档 集合 数据库 集合就是一组文档。 集合是无模式的。 多个文档组成集合 多个集合数据库。 它包含多个键/值对 文档中的键/值对是 有序的 文档型数据库 四、空间大数据的存储 四、空间大数据的存储 四、空间大数据的存储 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。 Key 指向 Value 的键值对,通常用hash table来实现 查找速度快 数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库 Cassandra, HBase, Riak 分布式的文件系统 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 文档型数据库 CouchDB, MongoDb Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 查询性能不高,而且缺乏统一的查询语法。 图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络,推荐系统等。专注于构建关系图谱 图结构 利用图结构相关算法。比如最短路径寻址,N度关系查找等 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。 四、空间大数据的存储 四、空间大数据的存储 这便是一个document,使用JSON格式,一目了然。其中的geom即为Geometry类型的数据,即地理空间数据,也是采用JSON格式存储,这样后续的空间索引与空间查询将十分方便。 四、空间大数据的存储 db.xqpoint.find({geom.coordinates:[122.53233,52.968872]}) 精确查询 邻域查询 db.xqpoint.find({geom.coordinates:{$near:[122,52]}})? db.xqpoint.find({geom.coordinates:{$near:[122,52]}}).limit(5) db.xqpoint.find({geom.coordinates:{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储 范围查询 box = [[80,40],[100,50]]? db.xqpoint.find({geom.coordinates:{$within:{$box:box}}}) center = [80,44]? radius =5? db.xqpoint.find({geom.coordinates:{$within:{$center:[center,radius]}}}) polygon1 = [[75,35],[80,35],[80,45],[60,40]]? db.xqpoint.find({geom.coordinates:{$within:{$polygon:polygon1}}})? 五、总结 大数据研究带来的挑战 多源数据的 分析和挖掘 空间大数据 的位置安全 结合地理计算的 可视分析 可扩展的动态 海量数据管理 新的数据共享机制 需要建立 * * 乔布斯在与癌症斗争的过程中成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,得到可包括30亿个碱基对整个基因密码的数据文档,医生们能够基于他的特定基因组成按所需成果用药,如果癌症病变导致药物失效,可以及时更换另一种药,这种获得所有数据而不仅是样本的方法将他的生命延长了好几年。 假设要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果有100个测量仪,有些测试的数据可能会是错误的,但众多的读数合起来就可以提供一个更加准确的结果。 亚马逊公司推荐系统设计之初是采用传统的方法通过样本分析找到客户之间的相似性,然后提供与用户以前购买物品有微小差异的产品,循环往复。亚马逊意识到推荐系统实际上并没有必要把顾客与其他顾客进行对比,它需要做的是找到产品之间的关联性。1998年,亚马逊申请了著名的协同过滤技术的专利使估算可以提前进行,所以推荐系统快如闪电,而且适用于各种各样的产品。亚马逊公司销售额的三分之一都是来自于它的个性化推荐系统。 * * 对电塔、无线路由器的信号强度三角测量来定位弥补

文档评论(0)

weidameili + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档