- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于数据挖掘与分析的模型管理工具
技术交底书
本技术交底书适用以产品、设备为主的专利申请,即技术创新主要是基于产品、设备的改进,请提供以下技术资料:
发明名称(反映发明的主题。一般不应超过25个字)
一种基于数据挖掘与分析的模型管理工具 技术领域(本直接所属或直接应用的具体技术领域技术odel Manager Platform),主要有模型管理、算法管理、任务管理、数据源管理、业务源管理模块构成;其核心功能是模型管理、算法管理、任务管理,其他模块都是为这三项核心模块进行提供辅助的模块。为了能够达到自主建模、实时模型训练、实时展示模型计算的输出等效果,需要考虑工作流技术、计算引擎技术、数据存储技术、任务调度等技术的选型,以便于能够有效支撑这些功能的实现。
在工作流技术选型方面,我们是以JBPM为蓝本进行设计和开发了建模流程界面和流程调度服务,使用的核心语言为java,web框架使用Bootstrap;在计算引擎技术选型方面,采用是java多线程技术;数据存储在技术选型时,需要考虑大数据5V特点中的大体量(Volume)、时效性(Velocity),所以,数据存储技术选择了Hdfs+Hbase+Hive、GreenPlum、Redis、Mysql等多种存储机制;任务调度在技术选型时,我们选择了java多线程技术。
该模型管理平台是通过WEB前台界面通过手工拖拉拽的方式绘制数据挖掘的处理流程,并把流程信息保存在Mysql数据库中,计算引擎从数据库中获取流程信息,并生成任务进行执行,流程中各原子算法、活动节点之间的临时数据是通过Redis缓存进行交互的。
模型管理是由模型定义与训练、模型测试、模型发布、模型评估、历史模型查询等功能组成,其中模型定义与训练是可以在流程绘制过程中进行流程实时调试执行的,并且可以对计算结果进行展示;并且每一个原子算法、活动执行的结果会保存在临时存储中,并且可供其后继任务随时访问,当整个模型训练完成以后,模型成功保存后,通过清除操作,才可以把训练过程中的临时存储数据进行释放,这样可以提高建模的效率,避免每次调试都要从开始点执行;模型发布是用来进行模型导出和导入的,目的是把已经绘制好的模型信息从平台上导出形成文件,并可以导入到另一个平台实例中,以便于进行模型的迁移;对于成熟在用的模型,运行一段时间以后,可以使用模型评估模块,对模型的有效性进行评估,并可以进行优化。
算法管理是包含原子算法管理、原子操作管理、原子服务管理、伪码编程管理、工具包管理等功能,这些功能为平台可扩展性提供了支撑,主要是面向平台管理人员开放,可以灵活配置各种算法、操作、服务,并且可以把常用的操作集成为工具包,为建模人员提供。其中原子算法集成了多种语言实现的版本(R,C++,SparkR、 Python、 Java、Julia、Scala、Go、Mahout),以便于建模人员根据实际需要处理的数据量选择效率最佳的算法。
任务管理主要是对测试通过的成熟的模型,形成固定的任务,可以配置定期时间,任务调度根据定时器调度启动执行,并可以监控模型执行状态:成功、失败、执行中,还可以查看执行日志和结果。任务管理还可以设定模型运行的并行度,根据用户对计算效率的要求设定并行度,以提高处理效率,但并行度必须以当前平台基础实施规模为前提的。
该模型管理平台区别于已有平台的最大特点有:
1、自主建模功能,即可以通过拖拉拽方式可视化绘制模型流程,并且可以实时单步训练,并可以对输出结果进行展示。
2、平台支持多语言实现的算法版本,可以根据数量灵活选择最佳的算法使用。
3、平台提供简单的编程功能,支持的编程语言包括:Java、C++、Python等主流开发语言,并可以集成到自建模型中辅助数据挖掘与分析处理。 技术效果(说明本发明的有益效果,可以由工作性能的提高,制作成本、能量损耗的减少,稳定性的增加,操作、控制、使用的简便,以及其他有用性能的出现等方面反映出来)
该数据挖掘与分析模型管理平台的发明主要解决了如下几个方面的问题:
1、提高了数据挖掘和分析时模型创建的效率:平台通过托拉拽的方式就可以创建数据挖掘和分析模型,从而改变了通过编写程序代码来创建数据挖掘模型的传统做法,并且降低了对建模人员编程能力要求,这样使得建模人员可以专注于数据挖掘理论研究,快速绘制挖掘模型。
2、提升了数据挖掘和分析处理的效率:平台提供了适合多种场景的算法实现版本,并且可以根据实际的数据量来设定计算的并行度,大大地提升了分析处理的效率。
3、减少了运营人员需求,降低了生产成本:平台中任务管理模块提供了定时执行功能,从而免去了专门安排人员手工执行任务工作,减少了人员需求,从而降低了生产成本。
附图与说明(附图应是黑白的,应以电子制图或流程图的标准绘制,而非扫描图或照片。使专利工作人员可直接在附图上编辑修改,实用新型申请必
您可能关注的文档
- 2016巴燕中心学校中考备考方案.doc
- 2016工作总结2017工作目标.doc
- 2016届高三生物尖子生非选择题专练.doc
- 2016年3月13日关于2015年中央和地方预算执行情况与2016年中央和地方预算草案的审查结果报告.doc
- 2016届安徽淮北一中高三最后一卷生物试卷(带解析).doc
- 2016年4月咨询工程师项目决策分析与评价考试模拟卷.docx
- 2016年4月绍兴市教学调测(一模)理科综合试卷-生物部分(word含答案).docx
- 2016年一级建造师工程项目管理重点梳理.docx
- 2016年IPO规则变化后分析文集.docx
- 2016届高三政治二轮复习作业二生活与消费2.doc
最近下载
- 实验一、蛋白质的等电点测定和沉淀反应.ppt VIP
- 化工泵培训课件.pptx VIP
- 安全生产管理机构设置及人员配备管理制度范本.pdf VIP
- 消防专用电话课件.pptx VIP
- 实验一 蛋白质的等电点测定和沉淀反应.ppt VIP
- NB-T 20133.6-2012 压水堆核电厂设施设备防护涂层规范 第6部分涂装作业.pdf VIP
- 趣味性游戏在音乐教学中的应用策略-来源:中国校外教育(第2019009期)-中国儿童中心.pdf VIP
- 2025年职业资格公路水运检测师道路工程-道路工程参考题库含答案解析(5套).docx VIP
- 《多元统计学》第8章 判别分析.ppt VIP
- 钢结构楼梯工程施工方案(3篇).docx
文档评论(0)