千亿大数据即席踪迹分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
千亿大数据即席踪迹分析 核心技术原理不实现详解 目录 什么是即席踪迹分析,那些场景适合即席踪迹分析 现有大数据技术在即席踪迹分析上存在的问题 千亿规模的即席踪迹分析关键技术实现 什么是千亿数据即席踪迹分析? 千亿 数据量在每天千亿条,总量在万亿规模的实时数据。 即席 首先含有当场,即兴的意思。没有事先准备,想查哪里就查哪里。 其次要求很快的响应,不能等待太久,即查即所得。 踪迹 了解数据里的风吹草动,行踪查询,轨迹分析. 一般指的是 时间、位置、操作等有关。 通过在大数据中快速的查询比对。发现目标的行踪轨迹。 常用亍破获案件、截获情报、舆论定位、排查故障、资金流向追溯、通话记录分析等。 即席踪迹分析是做什么的 技侦:通话记录分析,同行同住,尾随人识别,连环案件等 网监:海量信息搜索,关键词统计,相似度匹配等 机动车缉查布控:车牌模糊查询,同行车辆,昼伏夜出,陌生车辆等 交通运输:车辆行驶轨迹,特种车辆监控,道路养护,流量监控等 通话数据统计不分析:通话质量,套餐推荐,用户习惯分析等 通信设备保养不维护:故障定位,故障预警,负载评估等 流水日志分析:日志快速定位,明细查询,问题追溯,投诉处理等 行情监测分析:指标监控,多维分析,监管合规等 用户画像,趋势分析,精准营销,推荐系统等 日志定位监测,用户行为分析,探索性数据分析等 订单轨迹,订单状态,物流车辆状态,服务质量评估等 公安 交通 电信 金融 电商 物流 这些场景带来的挑战! IOT-物联网,传感器,摄像头 视频识别 行车:位置,速度,车牌,颜色,车内人数 行人:性别,衣服颜色、人群密度,行走速度 UGC:用户产生内容 上网发帖,发博客 语音通话,照片分享 Transactions:事物日志 刷卡消费,买火车票 酒店入住,网吧上网 手机信令位置定位 超大规模: 数据总量达到数十亿到数万亿条 日均产生数千万到千亿条数据 超多维度: 字段数达到数百个,数千个, 甚至数十几万个 无法预计算: 每种组合都算好的话可能达数年。 即席查询: 即查即所见、任意多维组合分析 转换为文本 目前业界现有主流方案存在的问题 Hive,Spark SQL,SQL on Hadoop:纯粹的暴力扫描 HBase,KV型NoSQL数据库:只能局部计算,丌灵活 Kylin:本质上是预计算,只能看特定的维度、粒度。 “千亿即席踪迹分析”的性能比对 “千亿即席踪迹分析”的必备特性 数据产生后约1~2分钟,系统内可查 每天千亿增量,总量可达万亿 任意维度组合统计分析,任意维度过滤筛选 像百度那样快速的搜索与响应。 想查什么立即就查,不需要预计算。 保存原始数据,任意维度组合均可见。 百亿数据,2台24core机器,秒级时间排序。 实时导入 多维分析 即席查询 超快排序 新方案的排序性能对比 检索过滤性能相对于原生spark提升倍数 机动车稽查 测试环境 数据条数 200亿条 数据大小 1000G CPU 2*6核 内存 64GB 机器台数 2台 场景测试 行车轨迹查询/重点车辆分析 0.43秒 同行车辆分析 1.56秒 区域碰撞分析 1.23秒 昼伏夜出、落脚点分析 1.5秒 陌生车辆分析 7.9秒 嫌疑车牌模糊搜索与定位 1.6秒 完备的功能-复杂的SQL查询咱必须要支持 功能 概述 检索过滤 等值匹配,支持 in操作,,,=,= and与or的嵌套组合 统计分析排序 单/多列group by,max,min,sum,avg,count,distinct,order by 复杂SQL 自定义udf,udaf,udft,SQL多层嵌套,union,多表关联join 模糊查询 全文检索,临近搜索,相似文本(文章)搜索, like。 数据类型 string,int,long,float,double,一列多值,地理位置,行存储,列存储 中文分词 内嵌二元分词,IK词库分词,也可自定义或拓展第三方分词。 YDB自带的ngram多元分词也更适合数字,邮箱,车牌,符号的匹配。 “千亿即席踪迹分析”的技术实现 架构描述 Kafka Hive Sql Insert YDB Local ComputingCombine Engine YDB Buffer Engine YDB Index Engine Hadoop HDFS Spark Computing Hive CLI JDBC/ODBC HTTP Hadoop YARN 我们在hdfs之上的分布式实时索引 利用大索引技术跳过丌需要的行 大数据就好比是一本新华字典 大多时候不需要一页一页的翻 采用blockSort实现2台机器百亿数据秒级排序 采用冒泡排序、快速排序、揑入排序还是希尔排序? 别闹了! 就两台机器,就算您的CPU能算的那么快,您的磁盘也转丌了那么快!

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档