第7章 基于TipDM大数据挖掘建模平台实现文本生成.pptx

第7章 基于TipDM大数据挖掘建模平台实现文本生成.pptx

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于TipDM大数据挖掘建模平台实现文本生成;;TipDM大数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发的面向大数据挖掘项目的工具。

该平台使用Java语言开发,采用浏览器/服务器(Browser/Server,B/S)结构,用户不需要下载客户端,可通过浏览器进行访问。

该平台具有支持多种语言、操作简单、无须编程语言基础等特点,以流程化的方式对数据输入/输出、统计与分析、数据预处理、挖掘与建模等环节进行连接,从而达成大数据挖掘的目的。

读者可通过访问该平台查看具体的界面情况,访问平台的具体步骤如下。

微信搜索公众号“泰迪学社”或“TipDataMining”,并关注公众号。

关注公众号后,回复“建模平台”,获取平台的访问方式。;平台界面如右图所示。;本章将以文本生成为例,介绍使用平台实现案例的流程。在介绍之前,需要引入平台的几个概念。

组件:对建模过程涉及的输入与输出、数据探索、数据预处理、建模、模型评估等算法分别进行封装,每一个封装好的模块被称为组件。组件分为系统组件和个人组件。系统组件可供所有用户使用,个人组件由个人用户编辑,仅供个人账号使用。

工程:为实现某一数据挖掘目标,将各组件通过流程化的方式进行连接,整个数据挖掘流程被称为工程。

参数:每个组件都给用户提供了需设置的内容,这部分内容称为参数。

共享库:用户可以将配置好的工程、数据集,分别公开到模型库、数据集库中作为模板,分享给其他用户,其他用户可以使用共享库中的模板,创建无须配置组件便可运行的工程。

;TipDM大数据挖掘建模平台主要有以下几个特点。

平台组件基于Python、R以及Spark分布式引擎,进行数据分析。Python、R以及Spark是目前常见的用于数据分析的语言或工具,高度契合行业需求。

用户可在没有Python、R或者Hadoop/Spark编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程。

提供公开可用的数据分析示例工程,一键创建、快速运行。支持挖掘流程每个节点的结果在线预览。

平台包含Python、R、Spark这3种工具的组件包,用户可以根据实际需求,灵活选择不同的工具进行数据挖掘建模。

;登录平台后,用户即可看到“共享库”模块系统提供的示例工程(模板),如下图所示。

;“共享库”模块主要用于标准大数据挖掘建模案例的快速创建和展示。通过“共享库”模块,用户可以创建无须导入数据及配置参数就能够快速运行的工程。

用户也可以将自己搭建的工程生成为模板,公开到“共享库”模块,供其他用户一键创建实训。同时,每一个模板的创建者都具有模板的所有权,能够对模板进行管理;“数据连接”模块支持从DB2、SQLServer、MySQL、Oracle、PostgreSQL等常用关系数据库导入数据。导入数据时的“新建连接”对话框如下图所示。

在输入了连接名、连接地址、用户名、密码后单击测试连接,成功新建数据库连接。

;新建数据库连接后,“数据集”模块主要用于数据挖掘建模工程中数据的导入与管理,支持从本地导入任意类型的数据。导入数据时的“新增数据集”对话框如下图所示。

;“我的工程”模块主要用于数据挖掘建模流程化的创建与管理,工程示例流程如下图所示。;通过单击“工程”栏下的(新建工程)按钮,用户可以创建空白工程并通过“组件”栏下的组件进行工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据挖掘的目的。

对于完成度优秀的工程,可以将其公开到“共享库”中,让其他使用者学习和借鉴。;在“组件”栏下,平台提供了输入/输出组件、Python组件、R组件、Spark组件等相同组件,如下图所示。

输入/输出组件提供工程输出与输出组件。包括对象存储输入源、输出源、hive输入源、输出到数据库、hdfs输入源、输入源、数据库输入源、http输入源等。;Python算法包可分为13类,具体如下。

“Python脚本”类提供一个Python代码编辑框。用户可以在代码编辑框中粘贴已经写好的程序代码并直接运行,无须额外配置算法。

“预处理”类提供对数据进行清洗的组件,包括数据标准化、缺失值处理、表堆叠、数据筛选、行列转置、修改列名、衍生变量、数据拆分、主键合并、新增序列、数据排序、记录去重和分组聚合等。

“统计分析”类提供对数据整体情况进行统计的常用组件,包括因子分析、全表统计、正态性检验、相关性分析、卡方检验、主成分分析和频数统计等。

“时间序列”类提供常用的时间序列组件,包括ARIMA等。

“分类”类提供常用的分类组件,包括朴素贝叶斯、支持向量机、CART分类树、逻辑回归、神经网络和K最近邻等。;“模型评估”类提供用于模型评估的组件,包括模型评估。

“模型预测”类提供用于模型预测的组件,包括模型预

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
内容提供者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档