- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习算法介绍;基本概念分类;监督式学习;非监督式学习;强化学习;十大机器学习算法;监督式学习与非监督式学习的差别;线性回归;线性回归;线性回归;逻辑回归;逻辑回归;决策树;细说决策树(1)——混乱度判断;细说决策树(2)——建构树;细说决策树(3)——剪枝prune;决策树代码 ;支持向量机;支持向量机;支持向量机优缺点;朴素贝叶斯;朴素贝叶斯;KNN(K最邻近算法);KNN(K最邻近算法);KNN(K最邻近算法);K均值算法;K均值算法;工作流程
;K-MEANS性能分析;K-MEANS性能分析;K-MEANS补充;AdaBoost;AdaBoost;Apriori;强化学习-马尔科夫决策过程;马尔科夫决策模型;数据挖掘;数据挖掘主要模型:分类、聚类、预测及关联;数据挖掘主要模型:分类、聚类、预测及关联;一、非线性拟合;二、货运量预测;二、货运量预测;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;三、财政收入影响因素与预测模型;四、时间序列预测法—交通流量预测;四、时间序列预测法—交通流量预测;一、数据探索;一、数据探索;二、数据预处理;二、数据预处理;(1)删除数据:主要针对缺失值数量较少、且删除数据对整体数据几乎没有影响;也可以根据数据缺失挖掘信息.
文献[1]利用5组医疗数据集测试了缺失数据对于病情阳性概率的影响,以及对分类结果精确度的影响,并通过knn、判别分析和朴素贝叶斯3种方法在数据缺失不同比例的情况下,对分类结果进行了分析比较;
(2)数据插补:属性间的关联性在缺失值估计过程中非常重要,在数据挖掘方法中,关键是挖掘属性间的关系。数据插补的目的在于估计正确的替代值。
文献[2]提出了基于不完备数据聚类的缺失数据填补方法,针对分类变量不完备数据集定义约束容差集合差异度,从集合的角度判断不完备数据对象的总体相异程度,并以不完备数据聚类的结果对基础进行缺失数据的填补。
文献[3]提出一种基于进化算法的自适应聚类方法,该方法的基本思想是将聚类问题转化成一个全局优化问题,利用聚类方法填充缺失值。
文献[4]针对缺失数据问题??提出了多元回归方法,弥补一元回归方法的不足。
[1] Juhola M, Laurikkala J. Missing values: how many can they be to preserve classification reliability [J/OL]. Artificial Intelligence Review,2011. (2011-08-01) [2012-12-28].
[2]武森,冯小东,单志广.基于不完备数据聚类的缺失数据填补方法[J].计算机学报,2012,35(8): 1726-1738.
[3] Silva J A,Hruschka E R. An evolutionary algorithm for missing values substitution in classification tasks[C] ∥ Proceedings of the HAIS′09. Salamanca:Springer,2009: 195-202.
[4] Zhang Shichao, Jin Zhi,Zhu Xiaofeng,et al. Missing data analysis: a kernel-based multi-imputation ap-proach[C]∥Proceedings of Transactions on Comput-ational Science III. Berlin,Heidelberg: Springer,2009:122-142.
;(2) 相似重复对象检测
文献[5]:邻近排序算法(SNM)是重复记录检测的常用方法,该方法基于排序比较的思想
文献[6]:多趟排序;文献[7]:优先队列排序
文献[8]:提出了基于N-gram的重复记录检测方法,并给出了改进的优先权队列算法以准确地
聚类相似重复记录。
文献[9]:用依赖图的概念,计算数据表中的关键属性,根据关键属性值将记录集划分为小记录集,在每个小记录集中进行相似重复记录检测。
文献[10]:针对非结构化数据的重复检测,介绍了复杂数据实体识别的概念和应用,分别就XML数据、图数据和复杂网络上实体识别技术进行了讨论。
[5]张建中,方正,熊拥军,等.对基于SNM数据清洗算法的优化[J].中南大学学报:自然科学版,2010,41(6):2240-2245.
[6]Monge A E,
您可能关注的文档
最近下载
- 2025内蒙古孪井滩生态移民示范区社区专职工作者招聘10人考试备考试题及答案解析.docx VIP
- 金属粉末冶金材料.PPT VIP
- 新苏教版三年级上册数学(全册)同步随堂练习一课一练 .pdf VIP
- 《电工基本技能》教案项目五任务二 开关类低压电器的拆装.docx VIP
- 危险源辨识、风险评价表(建筑工程).xls VIP
- 连翘的育苗技术.pptx
- 第16课《诫子书》(教师版).docx VIP
- 跨部门合作流程与沟通模板.doc VIP
- SANKEN三肯变频器samco-ns TEXC-NS-002(小容量)使用手册调试说明书.pdf
- 《电工基本技能》教案项目五任务三 接触器的拆装.docx VIP
原创力文档


文档评论(0)