千亿大数据即席踪迹分析.pptx

下载文档 降价啦

387
0
约3.61千字
约 25页
2019-04-18 发布于浙江
举报
版权申诉
保障服务

千亿大数据即席踪迹分析.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

千亿大数据即席踪迹分析核心技术原理不实现详解目录什么是即席踪迹分析，那些场景适合即席踪迹分析现有大数据技术在即席踪迹分析上存在的问题千亿规模的即席踪迹分析关键技术实现什么是千亿数据即席踪迹分析？千亿数据量在每天千亿条，总量在万亿规模的实时数据。即席首先含有当场，即兴的意思。没有事先准备，想查哪里就查哪里。其次要求很快的响应，不能等待太久，即查即所得。踪迹了解数据里的风吹草动，行踪查询，轨迹分析. 一般指的是时间、位置、操作等有关。通过在大数据中快速的查询比对。发现目标的行踪轨迹。常用亍破获案件、截获情报、舆论定位、排查故障、资金流向追溯、通话记录分析等。即席踪迹分析是做什么的技侦：通话记录分析，同行同住，尾随人识别，连环案件等网监：海量信息搜索，关键词统计，相似度匹配等机动车缉查布控：车牌模糊查询，同行车辆，昼伏夜出，陌生车辆等交通运输：车辆行驶轨迹，特种车辆监控，道路养护，流量监控等通话数据统计不分析：通话质量，套餐推荐，用户习惯分析等通信设备保养不维护：故障定位，故障预警，负载评估等流水日志分析：日志快速定位，明细查询，问题追溯，投诉处理等行情监测分析：指标监控，多维分析，监管合规等用户画像，趋势分析，精准营销，推荐系统等日志定位监测，用户行为分析，探索性数据分析等订单轨迹，订单状态，物流车辆状态，服务质量评估等公安交通电信金融电商物流这些场景带来的挑战！ IOT-物联网，传感器，摄像头视频识别行车：位置，速度，车牌，颜色，车内人数行人：性别，衣服颜色、人群密度，行走速度 UGC:用户产生内容上网发帖，发博客语音通话，照片分享 Transactions：事物日志刷卡消费，买火车票酒店入住，网吧上网手机信令位置定位超大规模：数据总量达到数十亿到数万亿条日均产生数千万到千亿条数据超多维度：字段数达到数百个，数千个，甚至数十几万个无法预计算：每种组合都算好的话可能达数年。即席查询：即查即所见、任意多维组合分析转换为文本目前业界现有主流方案存在的问题 Hive，Spark SQL，SQL on Hadoop：纯粹的暴力扫描 HBase，KV型NoSQL数据库：只能局部计算，丌灵活 Kylin：本质上是预计算，只能看特定的维度、粒度。 “千亿即席踪迹分析”的性能比对 “千亿即席踪迹分析”的必备特性数据产生后约1~2分钟，系统内可查每天千亿增量，总量可达万亿任意维度组合统计分析，任意维度过滤筛选像百度那样快速的搜索与响应。想查什么立即就查，不需要预计算。保存原始数据，任意维度组合均可见。百亿数据，2台24core机器，秒级时间排序。实时导入多维分析即席查询超快排序新方案的排序性能对比检索过滤性能相对于原生spark提升倍数机动车稽查测试环境数据条数 200亿条数据大小 1000G CPU 2*6核内存 64GB 机器台数 2台场景测试行车轨迹查询/重点车辆分析 0.43秒同行车辆分析 1.56秒区域碰撞分析 1.23秒昼伏夜出、落脚点分析 1.5秒陌生车辆分析 7.9秒嫌疑车牌模糊搜索与定位 1.6秒完备的功能-复杂的SQL查询咱必须要支持功能概述检索过滤等值匹配,支持 in操作,,,=,= and与or的嵌套组合统计分析排序单/多列group by,max,min,sum,avg,count,distinct,order by 复杂SQL 自定义udf,udaf,udft,SQL多层嵌套,union,多表关联join 模糊查询全文检索,临近搜索,相似文本(文章)搜索, like。数据类型 string,int,long,float,double,一列多值,地理位置,行存储,列存储中文分词内嵌二元分词，IK词库分词,也可自定义或拓展第三方分词。 YDB自带的ngram多元分词也更适合数字，邮箱，车牌，符号的匹配。 “千亿即席踪迹分析”的技术实现架构描述 Kafka Hive Sql Insert YDB Local ComputingCombine Engine YDB Buffer Engine YDB Index Engine Hadoop HDFS Spark Computing Hive CLI JDBC/ODBC HTTP Hadoop YARN 我们在hdfs之上的分布式实时索引利用大索引技术跳过丌需要的行大数据就好比是一本新华字典大多时候不需要一页一页的翻采用blockSort实现2台机器百亿数据秒级排序采用冒泡排序、快速排序、揑入排序还是希尔排序？别闹了! 就两台机器，就算您的CPU能算的那么快，您的磁盘也转丌了那么快！

您可能关注的文档

文档评论（0）

智慧IT + 关注: 实名认证

内容提供者

微软售前技术专家持证人

生命在于奋斗，技术在于分享！

咨询Ta 进入空间

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

更多 >

千亿大数据即席踪迹分析.pptx