- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于TipDM大数据挖掘建模平台实现广告流量检测违规识别知识准备
教学目标知识目标了解TipDM大数据挖掘建模平台的相关概念和特点。技能目标能够使用TipDM大数据挖掘建模平台完成广告流量检测违规识别项目总体流程的设计、配置。能够使用TipDM大数据挖掘建模平台完成项目流程的实现。
教学目标素质目标具备快速学习能力,能够快速上手使用TipDM大数据挖掘建模平台。具有总结概括信息能力,能够根据项目4~7的项目流程,配置可用于TipDM大数据挖掘建模平台的总体流程。具有学以致用的实践能力,能够使用TipDM大数据挖掘建模平台的组件实现具体问题。
思维导图
项目背景在本书中介绍了使用Spark来实现广告流量检查违规识别项目,相较于传统Spark解析器,TipDM大数据挖掘建模平台具有流程化、去编程化等特点,满足不懂编程的用户使用数据分析技术的需求。本项目将介绍如何使用TipDM大数据挖掘建模平台,然后通过该平台实现广告流量检查违规识别。
项目目标根据项目4~7的内容,设计广告流量检测违规识别项目的总体流程,通过TipDM大数据挖掘建模平台实现广告流量检测的违规识别。
目标分析使用TipDM大数据挖掘建模平台实现广告流量检测数据的获取。使用TipDM大数据挖掘建模平台实现广告流量检测数据的处理。使用TipDM大数据挖掘建模平台实现模型的构建与评估。
平台简介TipDM大数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发,面向大数据挖掘项目的工具。平台使用Java语言开发,采用B/S结构(Browser/Server,浏览器/服务器模式),用户不需要下载客户端,可通过浏览器进行访问。
平台简介平台具有支持多种语言、操作简单、无须编程语言基础等特点,以流程化的方式将数据输入/输出、统计分析、数据预处理、挖掘与建模等环节进行连接,从而实现大数据挖掘的目的。平台界面如下图。
平台简介读者可通过访问平台查看具体的界面情况。微信搜索公众号“泰迪学社”或“TipDataMining”,关注公众号。关注公众号后,回复“建模平台”,获取平台访问方式。
平台简介在介绍如何使用平台实现项目分析之前,需要引入平台的几个概念,其基本介绍如下表。概念基本介绍组件将建模过程中涉及的输入/输出、数据探索、数据预处理、绘图、建模等操作分别进行封装,每一个封装好的模块称之为组件。组件分为系统组件和个人组件。(1)系统组件可供所有用户使用(2)个人组件由个人用户编辑,仅供个人账号使用工程为实现某一数据挖掘目标,将各组件通过流程化的方式进行连接,整个数据流程称为一个工程参数每个组件都有提供给用户进行设置的内容,这部分内容称为参数共享库用户可以将配置好的工程、数据集,分别公开到模型库、数据集库中作为模板,分享给其他用户,其他用户可以使用共享库中的模板,创建一个无须配置组件便可运行的工程
平台简介TipDM大数据挖掘建模平台主要有以下几个特点。平台组件基于Python、R以及Hadoop/Spark分布式引擎,用于数据分析。Python、R以及Hadoop/Spark是常见的用于数据分析的语言或工具,高度契合行业需求。用户可在没有Python、R或Hadoop/Spark编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程。提供公开可用的数据分析示例实训,一键创建,快速运行。支持挖掘流程每个节点的结果在线预览。平台包含Python、Spark、R三种工具的组件包,用户可以根据实际需求灵活选择不同的语言进行数据挖掘建模。
平台简介下面将对平台的这5个模块进行介绍:共享库数据连接数据集我的工程个人组件
共享库登录平台后,用户即可看到“共享库”模块系统提供的示例工程(模板)。“共享库”模块主要用于标准大数据挖掘建模案例的快速创建和展示。通过“共享库”模块,用户可以创建一个无须导入数据及配置参数就能够快速运行的工程。用户可以将自己搭建的工程公开到“共享库”模块,作为工程模板,供其他用户一键创建。同时,每一个模板的创建者都具有模板的所有权,能够对模板进行管理。
数据连接“数据连接”模块支持从DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用关系数据库导入数据,导入数据时的“新建连接”对话框如下图。
数据集“数据集”模块主要用于数据挖掘建模工程中数据的导入与管理。支持从本地导入任意类型的数据。导入数据时的“新增数据集”对话框如下图。
我的工程“我的工程”模块主要用于数据挖掘建模流程化的创建与管理,工程示例流程如下图。通过单击“工程”栏下的(“新建工程”)按钮,用户可以创建空白工程并通过“组件”栏下的组件进行工程配置,将数据输入/输出、预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据挖掘与分析的目的。对于完成度优秀的工程
您可能关注的文档
- Spark大数据分析实务 课件 项目1 广告流量检测违规识别需求分析 .pptx
- Spark大数据分析实务 课件 项目2 Spark大数据环境安装搭建.pptx
- Spark大数据分析实务 课件 项目3 基于Hive实现广告流量检测数据存储 .pptx
- Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析 .pptx
- Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理 .pptx
- Spark大数据分析实务 课件 项目6 基于Spark MLlib实现广告流量检测违规识别模型构建与评估 .pptx
- Spark大数据分析实务 课件 项目7 基于Spark开发环境实现广告流量检测违规识别 .pptx
- 医院5S管理内容培训.ppt
- 脑出血后脑的病理生理变化.ppt
- 妊娠与肾脏病高丽真.ppt
文档评论(0)