- 1
- 0
- 约2.68千字
- 约 68页
- 2021-09-01 发布于北京
- 举报
机器学习算法介绍;基本概念分类;监督式学习;非监督式学习;强化学习;十大机器学习算法;监督式学习与非监督式学习的差别;线性回归;线性回归;线性回归;逻辑回归;逻辑回归;决策树;细说决策树(1)——混乱度判断;细说决策树(2)——建构树;细说决策树(3)——剪枝prune;决策树代码 ;支持向量机;支持向量机;支持向量机优缺点;朴素贝叶斯;朴素贝叶斯;KNN(K最邻近算法);KNN(K最邻近算法);KNN(K最邻近算法);K均值算法;K均值算法;工作流程
;K-MEANS性能分???;K-MEANS性能分析;K-MEANS补充;AdaBoost;AdaBoost;Apriori;强化学习-马尔科夫决策过程;马尔科夫决策模型;数据挖掘;数据挖掘主要模型:分类、聚类、预测及关联;数据挖掘主要模型:分类、聚类、预测及关联;一、非线性拟合;二、货运量预测;二、货运量预测;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;四、时间序列预测法—交通流量预测;四、时间序列预测法—交通流量预测;一、数据探索;一、数据探索;二、数据预处理;二、数据预处理;(1)删除数据:主要针对缺失值数量较少、且删除数据对整体数据几乎没有影响;也可以根据数据缺失挖掘信息.
文献[1]利用5组医疗数据集测试了缺失数据对于病情阳性概率的影响,以及对分类结果精确度的影响,并通过knn、判别分析和朴素贝叶斯3种方法在数据缺失不同比例的情况下,对分类结果进行了分析比较;
(2)数据插补:属性间的关联性在缺失值估计过程中非常重要,在数据挖掘方法中,关键是挖掘属性间的关系。数据插补的目的在于估计正确的替代值。
文献[2]提出了基于不完备数据聚类的缺失数据填补方法,针对分类变量不完备数据集定义约束容差集合差异度,从集合的角度判断不完备数据对象的总体相异程度,并以不完备数据聚类的结果对基础进行缺失数据的填补。
文献[3]提出一种基于进化算法的自适应聚类方法,该方法的基本思想是将聚类问题转化成一个全局优化问题,利用聚类方法填充缺失值。
文献[4]针对缺失数据问题,提出了多元回归方法,弥补一元回归方法的不足。
[1] Juhola M, Laurikkala J. Missing values: how many can they be to preserve classification reliability [J/OL]. Artificial Intelligence Review,2011. (2011-08-01) [2012-12-28].
[2]武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8): 1726-1738.
[3] Silva J A,Hruschka E R. An evolutionary algorithm for missing values substitution in classification tasks[C] ∥ Proceedings of the HAIS′09. Salamanca:Springer,2009: 195-202.
[4] Zhang Shichao, Jin Zhi,Zhu Xiaofeng,et al. Missing data analysis: a kernel-based multi-imputation ap-proach[C]∥Proceedings of Transactions on Comput-ational Science III. Berlin,Heidelberg: Springer,2009:122-142.
;(2) 相似重复对象检测
文献[5]:邻近排序算法(SNM)是重复记录检测的常用方法,该方法基于排序比较的思想
文献[6]:多趟排序;文献[7]:优先队列排序
文献[8]:提出了基于N-gram的重复记录检测方法,并给出了改进的优先权队列算法以准确地
聚类相似重复记录。
文献[9]:用依赖图的概念,计算数据表中的关键属性,根据关键属性值将记录集划分为小记录集,在每个小记录集中进行相似重复记录检测。
文献[10]:针对非结构化数据的重复检测,介绍了复杂数据实体识别的概念和应用,分别就XML数据、图数据和复杂网络上实体识别技术进行了讨论。
[5]张建中,方正,熊拥军,等.对基于SNM数据清洗算法的优化[J].中南大学学报:自然科学版,2010,41(6):2240-2245.
[6]Monge A E
您可能关注的文档
- 0《企业集团组织结构和管理体系设计》.pptx
- 0全球化进程中的中国发展模式.pptx
- 09货币资金的核算.pptx
- 0团队学习、团队沟通、团队信任.pptx
- 0脑白金广告研究资料.pptx
- 0营销渠道环境.pptx
- 0软件项目管理概述.pptx
- 0家族企业复杂性理论构建初探.pptx
- 10,11第12章_交通运输项目投资评价.pptx
- 1.2现代旅游对区域发展的意义.pptx
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)