双峰数据分布的模拟.pdfVIP

  • 217
  • 0
  • 约1.36万字
  • 约 6页
  • 2017-09-14 发布于湖北
  • 举报
ofYunnanNormal 云南师范大学学报(自然科学版) Journal University No.2) 2013年3月一33卷2期(V01.33 双峰数据分布的模拟。 徐鑫, 郭民之, 石峰利 (云南师范大学数学学院,云南昆明650500) 摘要:双峰数据是我们现实生活中存在的一种数据类型,双峰分布是由两个分布混合而成的.本文 先讨论由两个正态分布混合而成的双峰分布.包括双峰数据的预处理,参数的确定,模型的建立及优化, 并将这种动态模拟的方法应用于美国黄石公园老忠实泉的喷发时间和等待时间数据的统计分析. 关键词:双峰数据;模型参数估计;动态模拟;实证分析 中图分类号: 0211.3 文献标志码: A 文章编号: l007—9793(2013)02一0046一06 1 引 言 双峰数据在我们生活中存在并可以看到的,双峰分布是由两个分布组成的一种混合型分布,比如在 保险精算中的索赔数据就是双峰数据,它是由帕累托分布和广义帕累托分布联合组成的‘1I.还有部分高 考成绩数据也常呈现双峰分布的特点,这是学生高考成绩成两极分化的一种反映.这类例子在我们生活 中还有很多.本文对双峰分布展开讨论,主要是讨论由两个正态分布混合而成的双峰分布,并利用Ex— cel2010软件进行模拟和作图. 2双峰数据模型的模拟 最常见的双峰分布是由两个正态分布混合而成的.而正态分布是最重要的一个连续分布,高斯在研 究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 假设X~N(肛。,盯i),y~N(卢:,叮;),则由X,Y混合而成的双峰分布为: Z一工。X+(1一I。)y (1) f n 1] 1 其中J。~l,。 a1,且口为第一个正态总体数据在全体数据中所占的比重, ll—d口J 已知某省某年高考数学成绩是双峰分布,假设第一个峰的分布为N(30,10),第二个峰分布为 模型及具体形式进行模拟,并用直方图加以展示. 模拟方案:首先,用Z来表示高考数学成绩数据变量,x表示属于第一个峰的数据变量,Y表示属于 析】/【随机发生器】,在【随机数发生器】的工作框内,变量个数输人1,随机数个数输入1000,分布选择正 * 收稿日期:2012—11—22 作者简介:徐鑫(1987一),男,山西阳泉人,硕士研究生,主要从事概率与数理统计方面研究. 通信作者:郭民之,理学博士,副教授,硕士生导师. 万方数据 第2期 徐鑫,等:双峰数据分布的模拟 ‘44/。 产生了变量X、Y的数据之后,根据变量X和Y数据来产生变量Z的数据.已知变量z的数据是由1000 布.接下来就要介绍如何产生J。. 首先,在Excel界面依次点【开发工具】/【插入】,在出现的【表单控件】对话框中点击【滚动条】,然后 工作表空白区任意点击即出现滚动条,并调整其位置在单元格E1,再右击滚动条,在出现的对话框中设 置控件格式,把最小值定为o,最大值定为100,步长为1,单元格链接为E2.在单元格E3中内输入“一 (1,E3,RAND())”,将此公式拖放至C1001.到目前为止,就产生最关键的j。分布. 省高考成绩数据(即变量Z). A 一B l Y 2

文档评论(0)

1亿VIP精品文档

相关文档