- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
论文题目: 基于K-means++算法和
支持向量机结合的分类算法
摘 要
近年来,随着计算机技术的飞速发展整个社会正在快速向数据化,信息化,智能化方向发展,于是涌现出了各行各业的大量数据。如何使得这些数据变为提高管理水平,发展产业效益与社会保障与信息安全的重要资源,成为当前重要且不得不不解决的重要问题,分析数据和挖掘这些数据的关系。因此,从大量数据信息中抽取有价值的潜在知识的一种新的数据分析技术数据挖掘应运而生。数据挖掘有对大量数据之间聚类和分类相关的学习,而本文主要从以下两个方面进行研究。
1.提出了选取聚类的初始种子点的方法。通过K-means的学习大家知道其方法有两个明显的不足,K值的选定是非常难以估计的和种子点位置的随机选取非常重要。于是本文提出了种子点位置选取的一种方法,首先根据专家经验选取第一个种子点,然后从距离第一个种子点较远的这些数据中根据权重随机选取一个种子点,重复以上步骤直到选取的种子点个数满足要求为止。该方法的主要思想就是初始的聚类中心之间的相互距离要尽可能的远初始的聚类中心之间的相互距离要尽可能的远
距离
聚类
有变化
聚类中心不变
1.1 算法描述
k-means++算法是k-means算法的改进,是解决初始化种子点的问题,其选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。该算法的描述是如下step.1---从输入的数据点集合中随机选择一个点作为第一个聚类中心
step.2---对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)step.3---选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大step.4---重复step.2和step.3直到k个聚类中心被选出来step.5---利用这k个初始的聚类中心来运行标准的k-means算法。
设有两类模式和,是从模式和中抽样得到的训练集,其中、。若属于类,则对应有;若属于类,则对应有;。寻求上的一个实函数,对于任给的未知模式,有
或者
式中为符号函数,称为决策(分类)函数。
当为线性函数时,称为线性分类机;当为非线性函数时,称为非线性分类机。
2.1.1 SVM中两类可分问题的分类机
以下图样本分布为例,对于这个二维问题,线性分类机的作用就是要在和之间寻找一条分类线,其表达式为。在高维情况下是一个超平面。
图2-1.样本分布
对于线性可分的两类模式和而言,能够准确将其分开的直线不是唯一的。假设有直线可以无误地将和两类模式分开,另有直线和直线与之间的间距为, 与之间形成一个没有学习样本的带状区域,不妨称该带状区域为“边带(Margin)”,而是边带的中分线。显然,最合理的分类线应该具有最宽的边带。
假设,已知分类线的法线矢量为,则分类线的表达式为:
式中表示矢量点积。显然, 到原点距离为。
对于给定的所有个学习样本,应满足:
或写成:
如图所示,直线和直线与分类线之间的间隔距离为,则这两条边界线的表达式分别为:
直线和直线之间的间距为,寻找最大带宽的问题,转化为在保证所有学习样本满足上式的前提下,寻找使达到最大的问题。
是一个标量,因此,可以取;。于是,分类线的表达式可以改写成:
直线和直线的表达式可以改写成:
当增大时,变小。于是,寻找最大带宽的问题,变成了寻找最小的问题,为了计算上的方便,取目标函数为。
对于任意学习样本,其分布必然在直线之上或直线之下。即有
将以上两式合并,有:
在选择分类线的过程中,上式对于任何学习样本都必须成立。在此前提下寻找最宽边界的问题,最后可以表示成一个约束优化问题:
这里目标函数中的没有其他意义,只是为了下一步导出求解方法时方便。由此得到两类分类机算法:
给定学习样本集,、。表示属于类,表示属于类;
构造并求解关于变量和的优化问题(目标函数加上平方)
求得最优解和;
构造分类函数
对于任意的
您可能关注的文档
最近下载
- 小学科学人教鄂教版六年级下册第一单元《生物与环境》教案(2023春.pdf VIP
- 人教鄂教版科学六年级下册第一单元生物与环境单元教案.pdf VIP
- 一例高血压患者的护理个案.docx VIP
- 青岛版六年级下册科学《生物与环境》大单元教学方案与反思.docx VIP
- 甘肃《建筑抗震加固工程消耗量定额》.pdf
- 高中英语1.5万考点.pptx VIP
- 新人教鄂教版六年级下册科学第一单元《生物与环境》全单元课件.pptx VIP
- CFMOTO春风动力450SR S CF400-9(6AQV-380101-3000-11 CN233)摩托车使用手册.pdf
- 水电站砂石系统施工组织设计(221页).docx VIP
- 2024新人教版初中英语七年级下册重点知识点归纳(复习必背).pdf VIP
文档评论(0)