- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
服务类六西格玛的独特技术挑战-非正态数据处理战略
? ??执行或推行六西格玛同志们或许能有这样的感受:在服务类六西格玛项目执行过程中,绿带或黑带遇到的最大六西格玛技术问题挑战之一就是:一些偏斜数据分布或称之为非正态分布数据。诚然这个问题在制造领域也会出现,但在制造领域之外才更加常见。我们先讨论其本质,然后提出一些符合理论的,在实践中又有效解决这个问题的对策。
??? 在管理活动中最常遇到的连续分布是正态分布,又称高斯分布,用来描述随即变量(如月销售额)其取值的规律性。数学理论上可证明,如果某项指标受到很多项随机因素的干扰或影响,而每项干扰或影响很小的话,则所有干扰影响的综合结果将导致此项指标的分布为正态分布。下图1表示平均值为100,标准差为3的正态分布。实践中我们经常会发现,其它的均值和标准差不同的正态分看上去和下图比较相似,唯一不同是曲线底部的跨度不同。
???? 正态分布是常见统计分析工具的基础,因为大部分统计分析工具使用的前提假定就是数据服从正态分布,相应地使用统计分析工具有效性的关键就取决于这一假定的真实性。如过程能力分析、方差分析、T-test、标准回归分析、信赖区间、控制图等。实际中数据不服从正态分布,又不知道偏斜数据分布产生的原因,该如何办呢?
???? 图2表示人力招募周期的数据,也就是从招募需求填单时间到招募人力入职报到时间的数据。从这些数据看来与图1中的数据完全不同,它们可称为是“右倾”的,因为这些数据是倾斜的(不对称的),并且分布的高度沿着横轴逐渐减小。这类数据在非制造领域是常见的。这种情况下,数据分布趋势发生倾斜是因为不会出现负招募时间。
?非正态数据趋势也常常会以其它方式出现,比如把一个范围是1~10的量测等级当作连续变量。该情形下,数据应该是离散的,由于只能取到10个独立的值,因此数据不能服从连续的正态分布。
????所以如果很多统计分析工具采用正态分布,而周期量测等非制造领域以外的项目中的数据常常出现偏斜的,这意味着你不能在此类型情形中应用统计分析工具吗?乍一看,这是合理的假设,且很不幸,很多六西格玛提供商和顾问已经讲授过这个问题。实际上并不是这样的,我们可以应用标准统计分析工具,但我们必须要有更深层次的技术上的理解,从而决定如何来应用它。为了说明怎么做,我们会详细介绍正态分布和正态假设,然后再讨论如何来分析非常态数据。
??? 最需要了解的原理是正态分布是一个概念模型,即理论上存在,但现实中并不存在。因此真正要回答的问题不是数据是否服从正态分布(它们不可能服从!),而是数据是否近似正态。正态分布实际上不存在的说法或许觉得惊讶,但当我们仔细分析了正态分布后就显而易见了。
??? 上图1说明,理论上的正态分布覆盖了从负无穷大到正无穷大,即没有最大或最小值。因此,现实中的数据若要服从这一分布,其最大和最小端就都没有边界,而现实中不可能做到这一点。如时间是关键质量特性,你无法观察到负的时间,因此时间不可能完全是正态分布,类似还有资金等。实际生活中,你永远也看不到完全的正态分布的另一原因是:根据定义连续分布有无限的可能结果(数学上为了精确定义,我们应该说“不可数的无限”)。上图1说明了这一点,图中的分布曲线是连续的,没有中断。在实际中,这可能发生唯一的方式是你用无限位的小数来测量周期,即使当你测量后,把其转换为2位小数,很多值就不可能取到了,这就会使分布中断,在技术上称之为离散分布(统计学家会称为“可数的无限”),再次导致非正态。
??? 或许你会说这是吹毛求疵的争论,但它揭示了为什么现实中没有数据能完全服从正态分布,即正态分布从现实意义上来说只是一个概念模型。所以现实数据没有完全的正态,而正态又是很多统计分析工具使用的前提,那么很多统计分析工具在实际中如何其作用呢?在实践中你不需要完全的正态,你只需要近似的正态即好。从图1看到,这些统计分析工具持续有效,直到你大大地偏离了正态。
???? 关于正态假设的第二个原理:这个假设一般不应用于原始的未加工的数据,但用于模型的残差或误差项。如公司的总资产(x1)和分期偿还的年数(x2)的基础上,预测收购的商誉(Y),你可能会使用这个标准回归模型:
Y=b0+β1X1+β2X2+ε,式中,ε代表残差或预测误差(模型预测和你实际观测到的差异);b0 代表常数项;β1,β2代表预测变量X1,X2的系数,在这个模型中,不是对商誉(Y)做正态假设,而是对残差值ε。因此在该情形下衡量正态假设的有效性,不是要衡量商誉的正态性,而是要进行回归分析对残差进行计算,并衡量残差的正态性。这种情况下应该寻求近似正态,而不是完全的正态。原始数据商誉的极端非正态,是残差很可能极端非正态的指示器,这一点成立。不过在很多情况下,原始数据不是近似正态,而残差是。这是因为原始数据包含了X变量的影响
您可能关注的文档
- 广东省金融生态环境实证研究.pdf
- 基于细胞色素b基因序列对蜻科部分种类系统进化研究_蜻蜓目_差翅亚目_.pdf
- 硅基力敏传感器及其工业应用(上).pdf
- 滚动轴承早期故障的小波诊断方法Ξ.pdf
- 国立中央大学电机工程学系研究生学分抵免办法.pdf
- 国外开放课程建设项目的定位分析.pdf
- 甲醇产业的发展和工艺技术新进展75929.pdf
- 甲醇汽油的技术进展及应用前景76382.pdf
- 检测马铃薯环腐病菌的PCR_ELISA和DNA杂交等方法的比较.pdf
- 和田河气田奥陶系底水气藏水侵机理研究3.pdf
- 肝胆外科论文手外科论文:探究肝内胆管结石的现代外科治疗.doc
- 高效液相色谱法同时测定食品中苯甲酸山梨酸脱氢乙酸的步骤.doc
- 细菌视紫红质聚合物功能复合膜的特性和应用X.pdf
- 高一生物必修1中有关蛋白质教学的几个问题探讨(陕).doc
- 高中化学《研究物质性质的方法和程序》说课稿.doc
- 下肢恶性骨肿瘤保肢术后假体生存分析及功能评估.pdf
- 格主业绩提升系列之——选择经营商品的技巧.doc
- 公务员面试不同问题的应答要点分析.docx
- 公务员面试技巧:17类经典考题的应答思路97173.doc
- 关于茶的市场价值之茶与健康的调查活动(广州市荔湾区芦荻西小学__科学探究小组_陆炫颖、邓景恒、朱雪宁、.doc
文档评论(0)