模拟退火结合Logistic算法在分类中应用.docVIP

下载本文档

12
0
约3.76千字
约 8页
2018-09-12 发布于福建
举报
版权申诉

模拟退火结合Logistic算法在分类中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模拟退火结合Logistic算法在分类中应用

模拟退火结合Logistic算法在分类中应用　　摘要：Logistic线性回归算法是一种简单而高效的二分类器，它能够针对每个参数生成对应的分类系数，最后结合系数计算出所在类别的概率；同时模拟退火算法是一种较好的全局寻优算法。在门店分类中考虑到各个参数的不同权重，因此使用模拟退火算法来寻找适当的参数权重以期望得到最好Logistic分类结果。最后通过实验来验证算法的准确率。　　关键词：Logistic线性回归模拟退火门店分类　　中图分类号：TP301.6 文献标识码：A 文章编号：1674-098X（2016）06（b）-0092-02 　　分类算法属于预测式数据挖掘的一种数据分析方法，其目的是根据重要样本数据集找出能准确描述并区分数据类或概念的模型，以便依据实体的属性值及约束条件将其划分到某个数据类别中去。Logistic回归分析主要用在社会科学中，目前有将粗糙集与Logistic回归进行结合构造分类模型如文献[2]，文献[3]中提出的集成Logistic和SVM的分类模等。而模拟退火则作为一种有效的全局寻优算法，目前主要是将其和其他算法结合以改进寻优的质量或者将模拟退火算法使用的特定的领域进行参数优化。　　在现在的商业系统中，门店分类是一个比较新的研究领域。在厂家的销售过程中，经常会将门店划分为不同的等级，例如汽车行业的旗舰店，4S店等的区别。当店面数量较少时可以采用人工划分，但具有很强的主观因素。因此考虑到在已有正确划分的店面的基础上运用一种好的分类方法，设计出分类器后在对未划分的店面进行自动划分。　　1 基本知识　　1.1 Logistic线性回归　　Logistic回归延伸了多元线性回归思想，即因变量yi是二值（为了方便起见通常设这些值为0和1）的情形。和在多元线性回归中一样，自变量X=[x1，x2， …，xk ]可以是类别变量或连续变量或是两种类型的混合。在该文中我们主要使用Logistic进行二分类。Logistic函数公式如式（1），通过似然概率估计就可以计算出β=[β0，β1，…，βp ]，最后使用Logistic函数来计算X分类的概率：　　求解β的具体过程如下：　　（1）随机初始化β0值和迭代的次数M；　　（2）使用式（7）进行迭代得到βt+1；　　（3）如果β值在一定步数内不变或者迭代次数达到M就跳出否则跳转到（2）。　　当求得β后则可以使用式（1）来对已知的数据X进行分类概率的计算，当计算出来的概率π（X） 0.5时将X分到第0类中，否则X为第1类。　　1.2 模拟退火算法　　模拟退火（Simulated Annealing）算法经常被用来求解全局最优解。SA算法其实是一种贪心算法，但是它的搜索过程引入了随机因素。模拟退火算法以一定的概率来接受一个比当前解要差的解，因此有可能会跳出这个局部的最优解，而求得全局的最优解。模拟退火算法的伪代码如下：　　（1）随机产生一个初始解X0，令Xbest = X0，并计算目标函数值E（X0）；　　（2）设置初始温度T（0） = T0，迭代次数i= 1；　　（3）Do while T（i） Tmin 　　①for j = 1～k 　　②对当前最优解Xbest按照某一领域函数，产生一个新的解Xnew。计算新的目标函数值E（Xnew），并计算目标函数值的增量ΔE = E（Xnew） ?C E（Xbest）。　　③如果ΔE 0，则Xbest = Xnew；　　④如果ΔE 0，则p = exp（-ΔE/T（i））；　　i.如果 c = random[0，1] p，Xbest = Xnew；否则Xbest = Xbest。　　⑤End for 　　（4）i = i +1；　　（5）End while；　　（6）输出当前最优点，计算结束。　　2 实验设计　　2.1 实验描述　　本实验根据某鞋企的店面销售数据来对店面进行评级，店面的销售数据信息格式如（D1，D2，D3，…，Dn，C）。Di表示第i种鞋子的销售数据，Di的取值范围变化比较大，从零到几千的范围都有可能。C表示此店面的等级，C的取值为0，1两种。实验给出38条已分类的门店数据，实验的最终目的是通过这些数据来训练出一个分类模型。　　2.2 算法设计　　根据实际情况考虑给不同种类鞋子赋予不同的权重值，训练时先将每种鞋类的数量乘以数据权重值，再将修正后的数据用来训练Logistic线性回归模型用来评定未知门店的等级。因此使用模拟退火算法来找到一组好的权重值是本实验中最关键的步骤。　　2.3 数据预处理　　在训练数据时先将原始数据进行归一化，通过归一化可以把需要处理的数据限制在一定范围。以保