大数据时代创新.ppt

  1. 1、本文档共103页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * 四、空间大数据的存储 Key-value型 文档型 图形数据库 列式存储 四、空间大数据的存储 定义一个大的有序结 构数组HashValue[m], 用来存放各信息 查询 哈希表 哈希函数 当查询的时候 再使用哈希函数 得到这个下标值 编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值x Key-value型 四、空间大数据的存储 文档 集合 数据库 集合就是一组文档。 集合是无模式的。 多个文档组成集合 多个集合数据库。 它包含多个键/值对 文档中的键/值对是 有序的 文档型数据库 四、空间大数据的存储 四、空间大数据的存储 四、空间大数据的存储 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。 Key 指向 Value 的键值对,通常用hash table来实现 查找速度快 数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库 Cassandra, HBase, Riak 分布式的文件系统 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 文档型数据库 CouchDB, MongoDb Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 查询性能不高,而且缺乏统一的查询语法。 图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络,推荐系统等。专注于构建关系图谱 图结构 利用图结构相关算法。比如最短路径寻址,N度关系查找等 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。 四、空间大数据的存储 四、空间大数据的存储 这便是一个document,使用JSON格式,一目了然。其中的geom即为Geometry类型的数据,即地理空间数据,也是采用JSON格式存储,这样后续的空间索引与空间查询将十分方便。 四、空间大数据的存储 db.xqpoint.find({geom.coordinates:[122.53233,52.968872]}) 精确查询 邻域查询 db.xqpoint.find({geom.coordinates:{$near:[122,52]}})? db.xqpoint.find({geom.coordinates:{$near:[122,52]}}).limit(5) db.xqpoint.find({geom.coordinates:{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储 范围查询 box = [[80,40],[100,50]]? db.xqpoint.find({geom.coordinates:{$within:{$box:box}}}) center = [80,44]? radius =5? db.xqpoint.find({geom.coordinates:{$within:{$center:[center,radius]}}}) polygon1 = [[75,35],[80,35],[80,45],[60,40]]? db.xqpoint.find({geom.coordinates:{$within:{$polygon:polygon1}}})? 五、总结 大数据研究带来的挑战 多源数据的 分析和挖掘 空间大数据 的位置安全 结合地理计算的 可视分析 可扩展的动态 海量数据管理 新的数据共享机制 需要建立 每年的天猫双十一购物狂欢节是中国的“剁手节”也是马云最赚钱的一天,双十一是在2009年开始举办的,已经连续举办了8年,2009年参加的商家数量和促销的东西有限,之前一直销量不好,在2014年的时候,一个小时就突破一亿,一整天下来就产生了571亿元,在2015年11月11日一天就产生了912.17亿元,都超过了2014年的双十一。2016年天猫淘宝双十一也是让大家最关注的一天, 2016年天猫双十一购物狂欢节正式落幕,8年前,阿里把11.11从光棍节变成狂欢节;8年后,阿里又把这个数字变成自己巨大的交易额。整整24小时,双11全球狂欢节现场的大幕一直在滚

文档评论(0)

weidameili + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档