基于K—均值动态聚类分析的企业信用等级划分法.docVIP

下载本文档

15
0
约2.96千字
约 5页
2016-09-30 发布于北京
举报
版权申诉

基于K—均值动态聚类分析的企业信用等级划分法.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K—均值动态聚类分析的企业信用等级划分法.doc

基于K—均值动态聚类分析的企业信用等级划分法　　摘要：企业信用等级分类监管是工商行政管理部门为提高监管能效开展的重要工作，利用计算机自主、高效地对企业科学的信用等级划分可以避免人为干扰，也是工商部门关注的内容。聚类分析是数据挖掘的重要研究领域，是数据划分的重要手段，K-均值动态聚类作为一种基于划分的方法，是聚类的主要方法之一。根据企业日常监管产生的数据，通过K-均值动态聚类方法对企业进行了信用等级划分。结果显示该方法有效可行，可作为工商行政管理部门实施企业分类监管的依据。　　关键词：K-均值；聚类分析；信用等级；分类　　中图分类号：TU411 　　对企业进行信用等级分类监管是工商行政管理部门为提高监管能效开展的一项重要工作，企业信用体系的建设对于规范市场主体行为、维护社会主义市场经济秩序、服务经济社会科学发展具有十分重要的作用。同时也为政府建立企业信息平台、建设社会信用体系奠定基础。传统的企业信用等级划分依靠人工分析实现，其工作量大、效率较低，划分结果因人而异，缺乏可重复性。聚类分析是对数据进行定量分类的一种常用方法，它是直接比较各事物之间的性质，将性质相近的归为一类的方法，他将集合按照聚类算法分成由相似对象所组成的多个类别[1]。聚类是一种无监督的学习，它使得类内对象的相似性大，不同类之间对象的相似性尽可能小[2]。从目前的实际应用上看，聚类技术在科学探测、图像处理、模式识别、医疗诊断、生物学、文档检索、Web分析、数据挖掘等许多领域都起着非常重要的作用，它已经成为当前非常活跃的一个研究课题[3]。　　经典的聚类方法包括分层算法，划分方法（如K-均值算法、模糊C均值算法），图论聚类法，神经网络法，以及基于统计的方法。K-均值算法是基于划分的聚类方法，也是最常用的聚类算法之一[4-6]。本文探讨了使用K-均值动态聚类方法对工商部门日常监管过程中产生的数据进行企业信用等级划分，并结合实际数据进行了实验。　　1 企业信用等级划分　　加强企业信用分类监管，是创新监管方式、提高监管效能的重要举措，是促进工商职能到位的重要手段。而做好企业信用分类监管的前提是科学、合理地做好企业信用等级划分，企业信用等级划分是企业信用分类监管的依据。　　目前企业信用等级划分主要依靠工作人员根据相关条例制度，结合企业的登记、监管、年检、警示、处罚、申投诉等信息对企业进行信用等级划分为不同的信用等级（通常以字母标识其信用等级），效率低且容易受到人为因素影响，影响监管效果，也会损害企业利益。使用动态聚类技术通过计算机根据工商信息系统中的现有数据自动对企业进行信用等级划分，可以减轻工商干部工作负担，提高工作效率，避免人为因素干扰。　　为研究需要，本文从工商行政管理部门信息系统中选取了有代表性的5个指标，分别为负债率（%）、案件处罚次数、涉案金额（万元）、警示次数和申投诉次数。从某管区随机抽取了10家企业的数据，如表1所示。　　2 K-均值动态聚类方法　　2.1 基本原理　　K-均值算法是一种经典聚类算法，它将集合D={X1，X2，Λ，Xn}T，（Xi={x1，x2，Λ，xm}）划分为k个互不重叠的子集D1，D2，Λ，Dk，相同子集中的样本比不同子集中的样本具有更高的内在相似性。　　其基本过程为：首先，任意选择k个样本，每个样本为一个类的均值或中心，对剩余的每个样本，根据其与各类中心的距离将它赋给最近的类（即最近邻准则）。然后重新计算每个类内样本的平均值以生成新的聚类中心，重复进行上述过程直到各聚类中心的值不再变化为止[7]。　　2.2 K-均值动态聚类算法步骤　　K-均值动态聚类算法的基本步骤如下：　　（1）从样本中任意选择k∈[1，k]个样本作为初始聚类中心；　　（2）遍历每个样本Xi，计算与每个聚类中心的距离，将Xi分配到距离最小的类中，在聚类分析中最常用的距离函数是闵科夫斯基距离：　　（3）计算每个类中样本的均值，将此均值作为新的聚类中心：　　结果显示，聚类结果被分为三类：第一类是信用风险较高的企业，以‘x’表示；有一定信用风险的企业即第二类，以‘+’表示；第三类是信用状况良好的企业，以‘o’表示。　　编号为1、2、4、6、10的企业由于案件处罚次数、涉案金额及被申投诉的次数都较高而被划分为同一类，实际上，这类企业具有较高的违法违规率，信用风险较高，要求重点监管，并根据实际情况发布信用风险提示信息。编号为3、8的企业虽然没有案件处罚和申投诉记录，但拥有较高的资产负债率，被归为一类，这类企业相比其他企业有较大的破产清算可能，有一定的信用风险。编号5、7、9的企业具有较低的资产负债率、案件数和涉案金额，警示数和被申投诉的次数也属于较低水平，这类企业在生产经营活动中有良好的经