社会化数据的混合存储和高效处理
明略技术合伙人 任鑫琦
SPEAKER
任鑫琦,2009年硕士毕业于北京
大学计算机学院,先后在百度、斯伦贝
谢担任研发工作,后加入秒针系统负责
大数据计算和平台管理;2014年正式
加入明略,先后负责了NoahArk、
LogM等多款产品研发,目前任大数据
关联分析产品SCOPA负责人。
目录
1 社会化数据特点
2 社会关系网络的存储架构
3 混合存储体系的落地实践
数据到底“大”在了哪儿?
何为“社会化”数据?
“社会化数据” “社会化媒体数据”
1 互联网社会数据 2 现实社会数据
新闻媒体数据 实名制轨迹类数据
社交网络数据 公共安全类基础数据
消费行为数据 基础建设监控数据
物联网数据 。。。
。。。
为何“社会化”数据?
反恐 风险控制
公安情报分析
企业内审
金融反洗钱 反偷税漏税
企业面临的数据难题
如何做数据关联分析 ?
如何透过多层次、多维度
从业务视角看数据
的数据分析实现对于某一
个人、某一件事或某一种
社会状态的现实态势的聚
焦,在时间序列上离散的、 数据离散,价值低,
挖掘和变现能力难
貌似各不相关的数据集合 度大
中,找到一种或多种与人
的活动、事件的发展以及
真正的大数据分析,
社会的运作有机联系的连 全面系统包括挖掘,
续性数据的分析逻辑。 分析,关联等
数据特征与局限
变更困难 数据质量
某个数据集,某个属性发生 清洗过程中会将不符合规则的数
变化时,接入-治理-表结构- 据进行删除、修改,虽然符合了
服务程序-业务一系列功能
原创力文档

文档评论(0)