- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
千亿大数据即席踪迹分析
核心技术原理不实现详解
目录
什么是即席踪迹分析,那些场景适合即席踪迹分析
现有大数据技术在即席踪迹分析上存在的问题
千亿规模的即席踪迹分析关键技术实现
什么是千亿数据即席踪迹分析?
千亿
数据量在每天千亿条,总量在万亿规模的实时数据。
即席
首先含有当场,即兴的意思。没有事先准备,想查哪里就查哪里。 其次要求很快的响应,不能等待太久,即查即所得。
踪迹
了解数据里的风吹草动,行踪查询,轨迹分析.
一般指的是 时间、位置、操作等有关。
通过在大数据中快速的查询比对。发现目标的行踪轨迹。
常用亍破获案件、截获情报、舆论定位、排查故障、资金流向追溯、通话记录分析等。
即席踪迹分析是做什么的
技侦:通话记录分析,同行同住,尾随人识别,连环案件等
网监:海量信息搜索,关键词统计,相似度匹配等
机动车缉查布控:车牌模糊查询,同行车辆,昼伏夜出,陌生车辆等
交通运输:车辆行驶轨迹,特种车辆监控,道路养护,流量监控等
通话数据统计不分析:通话质量,套餐推荐,用户习惯分析等
通信设备保养不维护:故障定位,故障预警,负载评估等
流水日志分析:日志快速定位,明细查询,问题追溯,投诉处理等
行情监测分析:指标监控,多维分析,监管合规等
用户画像,趋势分析,精准营销,推荐系统等
日志定位监测,用户行为分析,探索性数据分析等
订单轨迹,订单状态,物流车辆状态,服务质量评估等
公安
交通 电信 金融 电商 物流
这些场景带来的挑战!
IOT-物联网,传感器,摄像头
视频识别
行车:位置,速度,车牌,颜色,车内人数 行人:性别,衣服颜色、人群密度,行走速度
UGC:用户产生内容
上网发帖,发博客 语音通话,照片分享
Transactions:事物日志
刷卡消费,买火车票 酒店入住,网吧上网 手机信令位置定位
超大规模:
数据总量达到数十亿到数万亿条 日均产生数千万到千亿条数据
超多维度:
字段数达到数百个,数千个, 甚至数十几万个
无法预计算:
每种组合都算好的话可能达数年。
即席查询:
即查即所见、任意多维组合分析
转换为文本
目前业界现有主流方案存在的问题
Hive,Spark SQL,SQL on Hadoop:纯粹的暴力扫描
HBase,KV型NoSQL数据库:只能局部计算,丌灵活
Kylin:本质上是预计算,只能看特定的维度、粒度。
“千亿即席踪迹分析”的性能比对
“千亿即席踪迹分析”的必备特性
数据产生后约1~2分钟,系统内可查
每天千亿增量,总量可达万亿
任意维度组合统计分析,任意维度过滤筛选
像百度那样快速的搜索与响应。
想查什么立即就查,不需要预计算。
保存原始数据,任意维度组合均可见。
百亿数据,2台24core机器,秒级时间排序。
实时导入
多维分析 即席查询 超快排序
新方案的排序性能对比
检索过滤性能相对于原生spark提升倍数
机动车稽查
测试环境
数据条数
200亿条
数据大小
1000G
CPU
2*6核
内存
64GB
机器台数
2台
场景测试
行车轨迹查询/重点车辆分析
0.43秒
同行车辆分析
1.56秒
区域碰撞分析
1.23秒
昼伏夜出、落脚点分析
1.5秒
陌生车辆分析
7.9秒
嫌疑车牌模糊搜索与定位
1.6秒
完备的功能-复杂的SQL查询咱必须要支持
功能 概述
检索过滤 等值匹配,支持 in操作,,,=,= and与or的嵌套组合
统计分析排序 单/多列group by,max,min,sum,avg,count,distinct,order by 复杂SQL 自定义udf,udaf,udft,SQL多层嵌套,union,多表关联join
模糊查询 全文检索,临近搜索,相似文本(文章)搜索, like。
数据类型 string,int,long,float,double,一列多值,地理位置,行存储,列存储
中文分词
内嵌二元分词,IK词库分词,也可自定义或拓展第三方分词。
YDB自带的ngram多元分词也更适合数字,邮箱,车牌,符号的匹配。
“千亿即席踪迹分析”的技术实现
架构描述
Kafka
Hive Sql Insert
YDB Local ComputingCombine Engine
YDB Buffer Engine
YDB Index Engine
Hadoop HDFS
Spark Computing
Hive CLI
JDBC/ODBC
HTTP
Hadoop
YARN
我们在hdfs之上的分布式实时索引
利用大索引技术跳过丌需要的行
大数据就好比是一本新华字典
大多时候不需要一页一页的翻
采用blockSort实现2台机器百亿数据秒级排序
采用冒泡排序、快速排序、揑入排序还是希尔排序?
别闹了! 就两台机器,就算您的CPU能算的那么快,您的磁盘也转丌了那么快!
您可能关注的文档
最近下载
- 制药工程制图习题集(第二版)于颖_课后习题答案解析.pdf
- 《建设工程施工管理》PPT课件.pptx VIP
- 义务教育版(2024)五年级全一册信息科技 第6课 判断选择用分支 教案.docx VIP
- 个人简历表格下载word(最新).pdf VIP
- Flexsim中文使用手册.pdf VIP
- 学习解读《水利水电建设工程验收规程》SLT223-2025课件.pptx
- 第八节可燃粉尘的爆炸.ppt VIP
- 视琦多媒体视觉训练系统使用说明书.doc VIP
- GB T 28749-2012_企业能量平衡网络图绘制方法_高清版_可检索.pdf
- 重庆秀山县公安局招聘警务辅助人员笔试真题2023(含答案).pdf VIP
文档评论(0)