- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非参数密度估计在电线线缆质量控制中的应用.doc
非参数密度估计在电线线缆质量控制中的应用
摘 要:本文用非参数密度估计构造了数学模型。该模型不假定数据序列相依形式和概率分布形式,不涉及模型参数估计,只依靠数据本身驱动,克服了参数估计普适性不高的特征。本文探索了非参数密度估计在电线线缆质量控制中的应用,探索了一种精确度较高的的分析方法。
关键词:核估计;窗宽;结果分析;拟合度
中图分类号:O212 文献标识码:A
0. 引言
数理统计技术,是先进质量管理的重要课题。目前在电线电缆行业中应用较多的数理统计技术是传统的参数统计方法,其基本步骤是:
第一,收集数据;
第二,拟合参数模型;
第三,估计参数模型;
第四,指出拟合效果。
其核心思想是先假设确定的参数模型。这种方法对数据的分析通常有较好的精确度,比如假设正态分布模型,用矩估计、最大似然估计和最小二乘法求参数等等。但是这些方法的缺陷就是模型的假设对不同的样本不具有普适性。本文探索利用非参数密度估计对电缆导体单丝的电阻率进行分析,以寻求一种更为精确的统计方法。
1. 观察数据
本文首先给出标准直径为2.52mm的模具拉出的铜单丝直径的样本数据见表1(样本容量为100,分16组,组距为0.000022mm),图1为散点图,图2为直方图,了解其所属总体的基本性质:由上面的图形,尤其是直方图,我们能对这组样本数据的分布有一个初步的了解。可以初步估计,该样本数据所属总体是很不对称的,并且左端有较长的尾端,从左向右整体有上升的趋势,在最右端出现一个小的尾端。
2. 密度核估计理论
2.1 核估计定义:设K(x)为R上的一个概率密度函数,h0是一个与n有关的常数,则
称fn为总体未知密度f(x)的一个核估计,其中函数K(x)称为核,h为窗宽。
2.2 K(x)的确定
研究表明,窗宽h确定时,不同核函数的作用是等价的。实际工作中,一般先选定核函数K(x),然后再寻求最优窗宽h。K(x)对fn的影响很小,因此满足以下基本条件的核函数都合适:
①∫K(x)dx=1;
②函数连续且光滑;
③一阶矩为零,方差有限。
常用的有均匀核,高斯核等。本文以高斯核为核函数。得到函数的核估计:
2.3 窗宽的确定
窗宽h越小,核估计密度对原数据的拟合度越大,但核估计的方差越大。反之,窗宽h越大,核估计的方差越小。通常选用LSCV法确定最佳窗宽,LSCV法是从现有的数据直接得到合理的窗宽,是计算最佳窗宽的经典方法之一。其主要思想是由样本作缺值估计来求最佳窗宽:
将已知的各个样本点值代入表达式,即可求得用核估计的窗宽h为0.105时,ICE最小为-5177。
3. 应用结果分析
本文利用以高斯核为核函数的核估计对样本数据进行分析,这样就可以得到函数的核估计形式:
在统计方法中,不知道总体服从什么类型的分布,通常可以用皮尔逊χ2拟合度检验来实现确定模型显著性是否可接受,以确定一批数据是否真正来自假定的分布模型。对于连续型数据,需先将样本数据划分成若干区间(即分组),要求分组后每组内包含的样本数不少于5个,若某些组内数据的频数小于5,则应将该组与相邻的组做适当合并,然后再进行检验。用fn估计总体密度f(x),所以检验问题等价于:
H0:f(x)=fn(x);H1:f(x)≠ fn(x) (7)
作为假设检验H0的统计量,在H0为真时近似有:
fi为第i组的样本频数,npi是按照核估计密度函数计算得到的理论频数,k为在H0下X可能取值的子集数,r为总体分布中需要估计的参数个数。该统计量近似服从自由度为k-r-1的χ2分布,可知假设检验的拒绝域为:
χ2≥χ2α(k-r-1) (9)
α为显著性水平,检验的临界值为χ2(1-α,k-r-1),当目标函数值大于临界值时拒绝原假设,认为密度函数不是核估计方法得到的密度函数;否则就不能拒绝原假设。
前文已经提到,在样本量很大的情况下,如果原假设成立,该统计量近似服从自由度为k-r-1的χ2分布,在此k=9,r=1因此分布的自由度为7。参考任何带有统计附表的书籍,均可以查阅到各个显著性水平下自由度为7的χ2分布临界值,在此我们查阅参考文献[5],查到α=0.05时,临界值χ20 .95=14.067,而h=0.105时。14.067,检验统计量实现值12.815小于该临界值,这就说明,在显著性水平为0.05时,不能拒绝原假设,即可以认为通过非参数核估计方法得到密度函数的表达形式符合实际的总体分布形式。因此,我们可以进一步相信上文选择的窗宽值是“最优”的,且在该窗宽取值下估计的总体密度函数是理想的。
结论
鉴于参数模型
文档评论(0)