- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
有关数据预处理的探讨.doc
有关数据预处理的探讨
摘 要 本文对居中型和区间型两种适度指标进行论证和例证,考察了这两种数据处理方法对主成分和因子分析这种综合评价结果的影响。另外,本文用文献①“初始化”思想对极差法进行分析,得到结论,即处理后数据的协方差矩阵不仅消除了指标量纲和数量级的影响,还能包含原始数据的全部信息。
关键词 数据处理 同趋势化 标准化 变异
中图分类号:TP391 文献标识码:A
The Discussion of Data Preprocessing
LIANG Xiaojia, ZHOU Juling
(Department of Mathematical sciences, Xinjiang Normal University, Urumqi, Xinjiang 830054)
Abstract Argument and illustration of some kinds of appropriate indicators is done in this paper, such as the indicators of medium and interval. And the paper looks at the effect of the comprehensive evaluation results from the two data processing method on principal components analysis and factor analysis. In addition, this article analyses the process according to the method of Initialization in the literature [1], then come to a conclusion of which the data covariance matrix after processing not only eliminate the influence of index dimension and order of magnitude, and also can contain all the information in the raw data.
Key words data processing; communalities; standardized; variation
0 引言
综合评价是依据被评价对象的过去或当前一段时间的相关信息,对被评价对象进行客观、公正、合理的全面评价。由于来自实际的指标数据可能是各种各样的,每个评价对象又涉及多个指标,特别是对于不同类型、不同单位、不同数量级的数据存在着不可公度性,所以在一个较复杂的综合评价问题中,可能同时含有极大型指标、极小型指标、居中型指标和区间型指标.做这样的综合评价问题时,必须先将不同类型的数据做一致化处理,即通过一定的数学变换把性质、量纲各异的指标转化为可以综合的一个相对数, 即对数据进行标准化。
对于数据的处理,目前很多学者已经进行了多方面的研究,并已获得了一定成果。例如:韩中庚提出了定性数据指标的量化处理方法;②陈军才论述了同趋势化方法对综合评价的影响,并指出了适用条件;③张立军、袁能文分析与比较了各种指标一致化与无量纲化方法对综合评价结果的影响,并对有效性进行测度;④张卫华、赵铭军找到了一种“合理排序”来进行无量纲化方法的优选;⑤俞立平、潘云涛、武夷山根据选择标准化方法的三大原则筛选出一种正项指标标准化方法,并提出一种负项指标标准化方法;⑥郭亚军、易平涛构建了一种复合无量纲化方法――“极标复合法”;⑦贾明辉、华志强提出了一种新的无量纲化方法――初始化法,并讨论了这种方法的优势。
本文研究陈军才文献中的同趋势化方法对主成分和因子分析的影响,欲对另外两种适度指标(居中型和区间型)进行论证和例证,考察这两种数据处理方法对综合评价结果的影响。另外,本文用贾明辉文献中 “初始化”思想对极差法进行分析,考察极差法的性质。
1 两种同趋势化方法对主成分和因子分析的影响
这里的同趋势化方法均取自韩中庚文献中的方法,探求使用此方法处理后的数据间发生的变化。
1.1 将居中型化为极大型
其中,、分别为的极大值和极小值。
命题:通过这种变换后,数据间正负相关关系的变化不确定。
证明:不妨设为其他指标,为居中型指标。
样本相关系数 = 。
设 = 0,因为0,0,当 = 0时, = 。
只需证与?是否同号。即原来负相关的关系,可能变为正相关,也可能负相关,也可能变换前后关系不确定。
文档评论(0)