k近邻和logistic回归分类算法比较研究 study of classification algorithms of k-nearest neighbor and logistic regression.pdfVIP

k近邻和logistic回归分类算法比较研究 study of classification algorithms of k-nearest neighbor and logistic regression.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
k近邻和logistic回归分类算法比较研究 study of classification algorithms of k-nearest neighbor and logistic regression

第26卷 第3期 洛阳理工学院学报(自然科学版) Vol26 No3  2016 年9 月 Journal ofLuoyang Institute ofScience and Technology(Natural Science Edition) Sept2016  K近邻和Logistic 回归分类算法比较研究 万会芳,杜彦璞 (成都理工大学 管理科学学院,四川 成都610000) 摘 要:分类是机器学习领域最重要的一类问题,其中K近邻法和Logistic 回归是两个重要的机器学习算法。本 文主要研究了K近邻算法和Logistic 回归模型在数据分类问题中的具体应用。针对K近邻算法,在考虑数据特征 基础上,分别用欧氏距离和曼哈顿距离作为距离度量,同时,对于Logistic 回归分类问题,提出了一种改进的随 机梯度上升算法。通过选取了UCI机器学习数据集中的Horse Colic、Wine Quality 两个数据集对算法进行验证, 应用结果表明:K近邻算法中使用欧氏距离更适合Wine Quality,并且改进的随机梯度上升算法显著提高了Lo gistic 学习机器的训练时间,说明了K近邻法和改进Logistic 回归分类算法具有良好的分类效果。 关键词:K近邻;Logistic 回归;机器学习 DOI:10.3969/i.issn.1674-5403.2016.03.020 中图分类号:TP311    文献标识码:A    文章编号:1674-5403(2016)03 -0083 -04   机器学习算法是数据挖掘领域的重要组成部分。近年来机器学习、统计学习、模式识别、数据挖掘 [1] [2] [3] [4] 等在各个领域得到了广泛的应用,并取得了很大的突破 。自然语言处理 、信息检索 、推荐系统 、 [5] 文本挖掘 等都要用到机器学习算法,而分类问题又是机器学习的重要主题,所以研究机器学习算法在 实际分类问题中的算法性能是非常有必要的。 本文主要研究了机器学习算法中的K近邻算法和Logistic 回归模型在分类问题中的应用,并研究了二 [6] 者应用于分类问题的差异。文献 利用KNN算法构建了北京地区雾霾等级分类器,该模型预报霾等级的 [7] 准确率高达918%。文献 基于KNN和SVM模型建立了中文文本分类模型,通过分析和比较实验结果, [8] 探讨文本分类中具体参数的设置和不同分类算法之优劣。文献 基于Logistic 回归和决策树在心理学数据 [9] 分类问题中对其ROC 曲线进行了比较,结果表明两种方法各有利弊。文献 基于 Logistic 回归模型对 Blazar天体分类进行了研究,分类的准确率达到912%。本文基于K近邻通过不同距离分别进行实验来 验证算法在应用具体数据上的表现。Logistic 回归模型通常可以用作预测和分类两类问题,本文只研究在 分类问题中的Logistic模型。在分类问题中,通常对于模型参数的求解有梯度下降法和拟牛顿法。梯度下 降方法是对于求某个函数的最小值,可以沿着函数梯度降低的方向迭代,因为梯度方向是函数值减少最 快的方向。而梯度上升算法刚好相反,每次在更新时对迭代公式中步长减号变加号即可。梯度上升算法 的回归系数在每次迭代的过程中需要在整个数据集上计算一遍,也就是说当样本输入空间有较大的特征 和样本时,该方法的计算复杂度就会大幅度增加,故本文提出一种Logistic 回归模型求解参数中的随机梯 度上升算法的改进,使之适合求解当样本输入空间较大的情况。 1 K近邻分类算法原理 [10]

您可能关注的文档

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档