- 6
- 0
- 约3.26万字
- 约 29页
- 2018-06-07 发布于贵州
- 举报
数据分类及其在中国经济区域划分问题上的运用
中文摘要
这篇论文主要研究的是数堡盆娄问题以及其在实践中的应用.本文主
要借鉴了模型定阶中常用的AIC方法以及用来进行分类的聚类分析方法中
的优点和欠缺,着眼于数据分类时类的个数如何确定这一问题进行探讨.
本文汲取了系统聚类法中通过定义距离或相似系数并以其大小将对象进行
分类的基本思想,将之与有序样本情况下的最优分割法相结合,吸收了系
统聚类法的直观性和最优分割法的简捷性及可以求出精确最优解的良好性
质,在存在历史数据的条件下,假设同类数据来自于同~分布,历史数据
相应的来自该分布.这样,由于每个类内离差平方和为该数据所属分布的
方差的相合且无偏的估计的倍数,故如果分类合理,则由待分数据得到的
离差平方和应与由历史数据得到的离差平方和相接近./因此,定义了分类
误差这个判断标准,取分类误差最小时类的个数和分类的方法为最佳的数
据分类方法,从而弥补了凭借主观经验决定类数的不合理性。在A[C准则
思想的启发下,将应该同属于一个分类的数据看作是在某一分布中抽取的
样本,从而通过求Kullback—Leibler信息量的渐近无偏估计而达到确定
类数与数据分类的目的.有感于实际情况中数据量的大小不等,存在着不
满足大样本条件但是却有大量历史数据的待分数据这一现象,将上述方法
进一步推广到每一分类
原创力文档

文档评论(0)