网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘平台建设方案.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘平台建设方案 平台简介 DataSense 数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等 6 大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现, 例如“分类预测”有决策树、分类回归树、支撑向量机分类、 神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高处理性能和高可靠性,可不间断接受任务。 平台设计 数据挖掘架构图 DataSense 数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的 ETL 工具,能够对海量数据进行高效快速的清洗。前端WEB 部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、 折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等 10 类可视化手段,利于业务系统对数据和模型的观察和调用。 DataSense 数据挖掘核心模块系统架构: DataSense 核心模块图 分布式数据挖掘引擎 管理本机上同时运行的多个计算任务,协调资源分配。 分布式挖掘运行时 独立的数据挖掘程序,负责对切分好的最小单元任务进 行处理。 DataSense 分布式数据挖掘管理引擎 提供对数据挖掘应用的 API,同时负责对整个数据挖掘 任务的调度管理。 分布式数据挖掘算法库 提供对数据挖掘常用的基本挖掘算法,同时用户可以自 己任意添加新的挖掘算法。 主要功能 DataSense 数据挖掘系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关 联分析、时间序列分析等 6 大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如 “分类预测”有决策树、分类回归树、支撑向量机分类、神 经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组 合模型等算法可供用户选用。共计包含了 27 个数据挖掘算法。 平台界面 DataSense 分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控 整个集群的运行状态。 数据导入 负责对数据的导入,支持数据库,文件系统两种数据抽 取方式。将数据抽取保存到数据立方。 数据管理 可以查询不同表的数据信息,可以导出原始数据文件。 任务管理 由于算法的输入规模的不同,部分数据挖掘业务可能运 行时间过长,系统提供了挖掘任务的查看、管理功能。 用户管理 大数据挖掘平台提供了多用户使用,系统管理员可以通 过用户信息管理功能实现对系统多用户的管理。 系统配置 提供系统平台自身的参数信息管理 可视化查询介绍 系统提供了对于已有数据的可视化查询,用户可以自定 义查询逻辑,系统会在后台自动提交查询任务。目前查询支 持了标准 SQL 60%的查询功能。 分类算法 分类算法目前提供了对于数据集的学习、分类的功能。 同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决 策或计算。 分类结束后系统会通过可视化的方式展示系统训练分 类后的结果。 聚类算法 聚类分是对未知事物的分类,系统提供了对结构化数据 的聚类,用户可以选择不同纬度的聚类。 上图为聚类设计页面,用户可以选择数据源,聚类属性, 聚类本身的相关属性等信息。 聚类完成后,系统通过可视化的查询,目前提供了饼图、 散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等 10 类可视化手段,利于用户对数据和模型的观察和理解。 平台优势特性 灵活的高性能硬件配置 DeepRack 深度学习一体机包含 24U 半高机柜,很多可配 置4 台4U 高性能服务器;每台服务器CPU 选用英特尔E5-2600 系列至强处理器;每台服务器很多可插入 4 块英伟达 GPU 卡; 可选配NVIDIA TITAN X, GeForce GTX 1080、K80 等各档次英伟达GPU 卡,以满足不同深度学习应用的需求。DeepRack 深度学习一体机为用户提供很大每秒 176 万亿次的单精度计 算能力,满配时相当于 160 台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑 了 7*24 小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。 集成知名的深度学习软件系统 DeepRack 深度学习一体机预装 CentOS 操作系统,集成了两套位 于行 业前沿开 源工 具软件 — — Google 的TensorFlow 以及伯克利大学的 Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。 提供基础训练数据 DeepRack 深度学习一体机提供了 MNIST、CIFAR-10、ImageNet 等图像

文档评论(0)

hao187 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档