熵值标准下数据信息量FCM改进.docVIP

下载本文档

10
0
约6.53千字
约 12页
2017-06-07 发布于福建
举报
版权申诉

熵值标准下数据信息量FCM改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

熵值标准下数据信息量FCM改进

熵值标准下数据信息量的FCM改进　　摘要：从区域发展指标体系下数据所蕴含信息量的角度出发，建立以信息熵为衡量标准的评价方式，研究如何利用模糊C均值聚类分类改进数据信息量，并从理论证明和实证分析的角度验证了方法的有效性。采用皖北沿淮地区在综合指标体系下的面板数据进行改进实验，结果表明在熵的标准下数据呈现多样性，信息量得到了显著提高，为后续采用数据挖掘方法进行指标讨论奠定了更好的数据信息质量关键词：区域发展；面板数据质量；信息熵；FCM；可行性论证中图分类号：F224.9 文献标识码：A文章编号： 2015 Abstract： Based on information entropy from the perspective of data quantity under index system of regional development， this paper establishes the way of evaluation by the standard of information entropy， explores how to improve the information of data using fuzzy c-means algorithm， and validates the the proposed method from theoretical proof and empirical analysis.The paper makes improving experiments via panel data under comprehensive index system of regions of northern Anhui and along the Huaihe river.Its result suggests diversity in data by information entropy standard and marked improvement of information， which lays good basis of better data quality for consequent data mining. Key words：regional development； quality of panel data； information entropy； fuzzy c-means algorithm； feasibility demonstration 在现代信息技术迅猛发展的背景下，越来越多的领域都采用数据驱动的方式进行研究。应运而生的数据技术从传统的统计分析到数据挖掘，再到现今的云计算和大数据都很好的给生产生活带来更多的价值。但是随之而来的数据量度和尺度都变得纷繁复杂，再加上各行业所取观测指标的不同使得数据在单位、量纲和指标含义等客观情况下呈现很大差异性和不确定性，特别是经济数据指标的数值差距过大，因此给数据技术方法本身的可行性以及所得结果的可靠性带来很大挑战。传统的数据预处理中多采用清理、变换和规约等方法来提高数据质量[1，2]，在大多数文献中多采用Min-Max标准化[3，4]、Z-score标准化[4]、Decimal scaling小数定标标准化[5]以及Log和Atan函数转化[6]来处理数据，并不着重讨论数据达到的质量程度。但是由于标准化方法的一些理论局限性，容易在处理中降低数据的信息量。所以在研究中如何能够判断标准化后数据信息量的改变程度，这对采用的技术方法本身和后续结果分析将起到重要的作用。本文将尝试探讨数据信息量衡量熵标准，并从理论层面和结合皖北沿淮区域经济发展数据做相应的实证分析一、构建熵标准下FCM分类改进模型（一）信息熵与FCM准备 1.数据质量的信息熵标准热力学第二定律表明孤立系统中任何变化都不可能减少熵值，1948年Shannon定义通信信号中平均信息量为熵[7]，从此熵作为衡量信息量的一种方式被广泛应用。信息熵是数据含载信息程度的一种度量方式，当信息熵越大时表明数据越无序，需要理清数据所需信息就越多，也说明数据的信息量越大。离散随机变量的信息熵定义为自信息的平均值 H（X）=Ep（x）[I（x）]=-∑xp（x）logp（x）其中I（x）为事件的自信息，Ep（x）表示对随机变量的概率取平均运算。其具有熵的非负性、对称性、扩展性和可加性等相关性质 2.模糊C均值聚类FCM 模糊C均值聚类[8，9]（FCM）是由Bezdek在1981年提出的一种模糊分类方法，FCM需要根据类中距和类间距构造分类准则，利用预