我眼中的大数据.ppt

下载文档 降价啦

112
0
约8.93千字
约 66页
2020-03-22 发布于河南
举报
版权申诉
保障服务

我眼中的大数据.ppt

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

四、空间大数据的存储 Key-value型文档型图形数据库列式存储四、空间大数据的存储定义一个大的有序结构数组HashValue[m]，用来存放各信息查询哈希表哈希函数当查询的时候再使用哈希函数得到这个下标值编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值x Key-value型四、空间大数据的存储文档集合数据库集合就是一组文档。集合是无模式的。多个文档组成集合多个集合数据库。它包含多个键/值对文档中的键/值对是有序的文档型数据库四、空间大数据的存储四、空间大数据的存储四、空间大数据的存储分类 Examples举例典型应用场景数据模型优点缺点键值（key-value） Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存，主要用于处理大量数据的高访问负载，也用于一些日志系统等等。 Key 指向 Value 的键值对，通常用hash table来实现查找速度快数据无结构化，通常只被当作字符串或者二进制数据列存储数据库 Cassandra, HBase, Riak 分布式的文件系统以列簇式存储，将同一列数据存在一起查找速度快，可扩展性强，更容易进行分布式扩展功能相对局限文档型数据库 CouchDB, MongoDb Web应用（与Key-Value类似，Value是结构化的，不同的是数据库能够了解Value的内容） Key-Value对应的键值对，Value为结构化数据数据结构要求不严格，表结构可变，不需要像关系型数据库一样需要预先定义表结构查询性能不高，而且缺乏统一的查询语法。图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络，推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址，N度关系查找等很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案。四、空间大数据的存储四、空间大数据的存储这便是一个document，使用JSON格式，一目了然。其中的geom即为Geometry类型的数据，即地理空间数据，也是采用JSON格式存储，这样后续的空间索引与空间查询将十分方便。四、空间大数据的存储 db.xqpoint.find({geom.coordinates:[122.53233,52.968872]}) 精确查询邻域查询 db.xqpoint.find({geom.coordinates:{$near:[122,52]}})? db.xqpoint.find({geom.coordinates:{$near:[122,52]}}).limit(5) db.xqpoint.find({geom.coordinates:{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储范围查询 box = [[80,40],[100,50]]? db.xqpoint.find({geom.coordinates:{$within:{$box:box}}}) center = [80,44]? radius =5? db.xqpoint.find({geom.coordinates:{$within:{$center:[center,radius]}}}) polygon1 = [[75,35],[80,35],[80,45],[60,40]]? db.xqpoint.find({geom.coordinates:{$within:{$polygon:polygon1}}})? 五、总结大数据研究带来的挑战多源数据的分析和挖掘空间大数据的位置安全结合地理计算的可视分析可扩展的动态海量数据管理新的数据共享机制需要建立来自《大数据时代》P008； *：可参考2008年9月4日《自然》推出的名为“大数据”的专刊。 * 第一V是Variety，海量数据有不同格式，第一种是结构化，我们常见的数据，还有半结据化网页数据，还有非结构化视频音频数据。而且这些数据化他们处理方式是比较大的。很多不同形式（文本、图像、视频、机器数据），无模式或者模式不明显，不连贯的语法或句义第二点就是Volume，量比较大，我们有一些用户化每秒就要进入很多数据，很多客户内部都有几批数据，还有下面淘宝都是几PB数据，所以PB化将是比较常态的情况。非结构化数据的超大规模和增长，占总数据量的80~90%，比结构化数据增长快10倍到50倍，是传统数据仓库的10倍到50倍