5-Python数据挖掘与应用_-_1.pptxVIP

  • 1
  • 0
  • 约2.96千字
  • 约 16页
  • 2024-01-08 发布于陕西
  • 举报

数据挖掘技术DataMiningTechnology人工智能专业

项目五:热点话题数据挖掘实战任务一任务介绍任务二热点话题分词任务三调用Python实现热点话题挖掘任务四热点话题数据可视化

项目引入项目在紧锣密鼓的进行着,在学习完数据分析之后,紧接着项目进入了重中之重,利用Python进行数据挖掘。想想数据挖掘的难度和代码,我的拖延症又犯了,迟迟不愿动笔,跟师父抱怨道:“数据挖掘的代码是不是很负责,而且技术点很难”Wendy眉毛上扬:“送你几个字‘不要重新发明轮子(Don’tRe-inventingtheWheel)’。”Wendy见我不明白,又说:“数据分析时,我们采用的很多框架和技术是通用的,比如文本分词,新词发现的算法。”师父分享给我Python库的官网(),说:“学习一个新的技术,就是看官网帮助文档,跟着做一遍。”当时我还不明白师父的良苦用心,直到边学边做,顺利的完成了第一个数据挖掘项目,尝到甜头之后才体会到数据挖掘的巨大优势。

任务一任务介绍

Wendy语重心长的说:这就是我们完成的第1个任务:项目的整体了解。任务描述项目启动会之后,第一次接触数据挖掘项目,我依然没有方向,就追着师父问:“师父,马上就要开始做项目,我们应该做些什么准备工作呢?”“知己知彼,才能百战百胜啊。我们先要进行数据挖掘的构建规划,理解数据挖掘的模式和业务流程,构思好项目的总体架构,这样才能游刃有余。”

任务一5.1.1数据挖掘解析数据挖掘的基本任务是从数据中挖掘隐含的有用信息并转化为知识,这些数据既有结构化的数据,也有非结构化的数据,类型多样(文本、图像、视频等),存储方式各异(文件存储、关系型数据库存储、非关系型数据库存储等)。

任务一5.1.1数据挖掘解析数据挖掘的问题从哪里挖掘数据源问题,如图像数据、基因数据、时空数据、交通数据等。挖掘什么数据关系型数据、非关系型数据、结构化数据、半结构化数据、非结构化数据、二进制数据等。挖掘什么模式特征、关联、相关性、异常、频繁等。用于哪里聚类分析、回归分析、分类、预测、异常检测等。使用什么技术统计、数据库及数据仓库、机器学习、神经网络、自然语言处理、信息检索、隐私保护等。

任务一5.1.1数据挖掘解析Python数据挖掘数据预处理数据分析数据可视化的基本包及应用数据立方体挖掘频繁及关联模式挖掘压缩模式模型评估等

任务一5.1.1数据挖掘解析(1)数据仓库及立方体数据仓库(datawarehousing)是数据存储的一种形式,而数据立方体(datacube)是对存储的数据进行多维建模和观察的形式,其起源于基于数据仓库的联机分析处理。(OnLineAnalyticalProcessing,OLAP)。数据仓库是对多个同质或异质数据源进行集成,形成面向多个主题的,具有时间属性的数据集合,供分析、预测、决策支持应用。数据立方体通常与数据维度结构、分层相关联,每个维度可以进行概念分层,即对维的值进行分组,这是数据立方体计算的基础。n维数据立方体计算方体的公式如下:??

任务一5.1.1数据挖掘解析大规模数据集的数据仓库及立方体分析工具ApacheKylin、Hive等在Python中安装命令:pipinstall--upgradekylinpy可使用SQLAlchemy方言或者Kylin命令行工具在终端下访问kylinpy

任务一5.1.1数据挖掘解析用户通过Pandas数据帧访问数据,并图形表示:importsqlalchemyassaimportpandasaspdimportmatplotlib.plotasplt#使用SQLAlchemyDialect(方言)访问Kylin#访问模板:kylin://username:password@hostname:port/project?version=v1|v2kyl_en=sa.create_engine(kylin://username:password@hostname:7070/test_mv?version=v1)ksql=select*frommv_praisegroupbymv_iddf=pd.red_sql(ksql,kyl_en)print(df)#分析结果数据用图形展示ax=df.plot(……)ax.set_xlabel(……)ax.set_ylabel(…..)plt.title(……)plt.show()

任务一5.1.1数据挖掘解析(2)频繁及关联模式挖掘频繁模式是在数据集合中经常出现的一种结构、序列、项集或关系的数据规律。关联模式又称关联规则,是指在经常同时出现的一种数据关联模式。挖掘关联模式的问题实质是挖掘频繁模式,其可以通过在

文档评论(0)

1亿VIP精品文档

相关文档