理解大数据-实践大数据精选课件.ppt

下载文档

0
0
约3.05千字
约 10页
2019-03-13 发布于湖北
举报
版权申诉
保障服务

理解大数据-实践大数据精选课件.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

xxx大数据产品布局 TRS机器数据挖掘引擎 TRS SMAS 舆情云服务坚持 TRS 大数据管理系统发展历程 TRS 全文数据库 TRS 非结构化数据库 TRS 大数据管理系统坚持 TRS 大数据管理系统V7.0 TRS 大数据管理系统V7.0 分布式并行计算、多副本机制、没有单点的高可靠体系架构，兼容Hadoop标准支持结构化、半结构化、非结构化数据的管理和搜索支持实时及用户行为数据的高效管理和分析支持PB级的海量数据管理支持海量用户的高并发访问（千万级用户、万级并发）充分释放硬件的潜力（多核、大内存等）大规模部署的自动化和运行状态监控创新的多检索引擎机制，提供开放的二次开发接口数据备份数据存储开发接口 CKM文本挖掘与数据挖掘关联规则与序列模式挖掘推荐引擎的离线分析 MapReduce 数据库监控机器数据搜索引擎用户行为挖掘与推荐引擎日志采集监控 Angent 1 Angent 2 Angent 3 …… Angent n Collector 1 Collector 2 Collector 3 …… Collector n Master 1 Master 2 Master n TRS 机器数据挖掘引擎坚持 TRS 机器数据挖掘引擎特点支持主流格式机器数据的实时采集、解析、管理和搜索。基于时间分段和负载均衡的大数据索引与检索机制。基于Web的机器数据搜索与分析界面。兼容Hadoop平台的日志挖掘和用户行为分析。基于多种推荐模型的在线推荐引擎大规模部署的自动化和运行状态监控 TRS SMAS功能框架图舆情管理服务共享信息挖掘信息来源新闻论坛博客搜索引擎微博 wiki 自动排重、自动分类、自动摘要、自动分析舆情分类热点跟踪热点统计微博分析人物分析微博运营趋势分析整合统计关联图谱动态走势兴趣图谱未知探索热点变化意见领袖传播图谱关系分类个性展示敏感预警自由分布数图导出图表切换多维检索探针追踪元搜索外网微博论坛 SNS 网媒官网提高销量用户满意度用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺陷 KOL维护声誉管理危机预警事件评估行为分析产品公关营销 SMAS 用户感知研发情绪感知及时服务口碑监测媒介监测 S- CRM 广义服务 TRS SMAS 作用于企业2.0 TRS 在大数据领域的应用实践新华社多媒体数据库国家知识产权局专利检索系统某部信息监控系统 TRS SMAS 云服务（大数据服务）国家质监局国家药监局北京市环保局国家气象局每日微博热点分析新华社多媒体数据库系统是新华社的核心业务支撑，典型的非结构化数据管理应用场景，持续IT投资已经超过6亿人民币以新华社遍布全球的新闻信息及采集网络为依托，全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源，拥有包括中、英、法、俄、西、阿及中文繁体在内的 6个文种，数据量超PB 最早采用文件系统，后来改为Oracle，效率很低，再改为Oracle+TRS ，持续服务至今从大型机改为PC服务器集群 1.5亿条原创新闻资讯 26000小时权威原创视频 700万张图片 27000家注册用户 8000多种资源分类 PB级数据量多语种数据坚持新华社多媒体数据库数据流转图新华社多媒体库的技术特点非结构化数据和结构化数据统一管理 TRS多语言检索引擎全面采用TRS文本挖掘技术良好的集群扩展能力索引服务器读写分离国家知识产权局专利检索服务系统 1998年专利局引进了欧洲EPOQUE系统，基于大型机的专利检索系统，每年的系统维护费用就达数千万元 2005年开始建设自主可控可持续发展的专利检索和服务系统，采用大量的PC服务器典型的非结构化/半结构化数据应用场景目前公共检索和审查员检索系统全部使用TRS检索引擎专利检索系统的需求特点数据多样性结构化、半结构化和非结构化数据的结合申请人、申请号、名称等著录项很多; 权利要求书、说明书等全文数据规模大各库数据结构差异大查询要求高严格的查全和查准要求基于领域知识的智能检索结构化和非结构化信息联合查询相关专利推荐专利检索与服务系统的数据种类与规模 6亿多条专利记录多渠道异构资源整合 100%查全率 1秒响应时间 700-1000并发 7×24 稳定可靠 1万注册用户专利检索引擎数据流转图专利检索与服务系统-外观图像检索专利图像外观检索局部检索形状检索纹理检索不变性特征检索草图检索数据分类数据聚类基于相关反馈的检索跨语言检索某部网监智能搜索和挖掘系统