服务类六西格玛的独特技术挑战.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
服务类六西格玛的独特技术挑战-非正态数据处理战略 ? ??执行或推行六西格玛同志们或许能有这样的感受:在服务类六西格玛项目执行过程中,绿带或黑带遇到的最大六西格玛技术问题挑战之一就是:一些偏斜数据分布或称之为非正态分布数据。诚然这个问题在制造领域也会出现,但在制造领域之外才更加常见。我们先讨论其本质,然后提出一些符合理论的,在实践中又有效解决这个问题的对策。 ??? 在管理活动中最常遇到的连续分布是正态分布,又称高斯分布,用来描述随即变量(如月销售额)其取值的规律性。数学理论上可证明,如果某项指标受到很多项随机因素的干扰或影响,而每项干扰或影响很小的话,则所有干扰影响的综合结果将导致此项指标的分布为正态分布。下图1表示平均值为100,标准差为3的正态分布。实践中我们经常会发现,其它的均值和标准差不同的正态分看上去和下图比较相似,唯一不同是曲线底部的跨度不同。 ???? 正态分布是常见统计分析工具的基础,因为大部分统计分析工具使用的前提假定就是数据服从正态分布,相应地使用统计分析工具有效性的关键就取决于这一假定的真实性。如过程能力分析、方差分析、T-test、标准回归分析、信赖区间、控制图等。实际中数据不服从正态分布,又不知道偏斜数据分布产生的原因,该如何办呢? ???? 图2表示人力招募周期的数据,也就是从招募需求填单时间到招募人力入职报到时间的数据。从这些数据看来与图1中的数据完全不同,它们可称为是“右倾”的,因为这些数据是倾斜的(不对称的),并且分布的高度沿着横轴逐渐减小。这类数据在非制造领域是常见的。这种情况下,数据分布趋势发生倾斜是因为不会出现负招募时间。 ?非正态数据趋势也常常会以其它方式出现,比如把一个范围是1~10的量测等级当作连续变量。该情形下,数据应该是离散的,由于只能取到10个独立的值,因此数据不能服从连续的正态分布。 ????所以如果很多统计分析工具采用正态分布,而周期量测等非制造领域以外的项目中的数据常常出现偏斜的,这意味着你不能在此类型情形中应用统计分析工具吗?乍一看,这是合理的假设,且很不幸,很多六西格玛提供商和顾问已经讲授过这个问题。实际上并不是这样的,我们可以应用标准统计分析工具,但我们必须要有更深层次的技术上的理解,从而决定如何来应用它。为了说明怎么做,我们会详细介绍正态分布和正态假设,然后再讨论如何来分析非常态数据。 ??? 最需要了解的原理是正态分布是一个概念模型,即理论上存在,但现实中并不存在。因此真正要回答的问题不是数据是否服从正态分布(它们不可能服从!),而是数据是否近似正态。正态分布实际上不存在的说法或许觉得惊讶,但当我们仔细分析了正态分布后就显而易见了。 ??? 上图1说明,理论上的正态分布覆盖了从负无穷大到正无穷大,即没有最大或最小值。因此,现实中的数据若要服从这一分布,其最大和最小端就都没有边界,而现实中不可能做到这一点。如时间是关键质量特性,你无法观察到负的时间,因此时间不可能完全是正态分布,类似还有资金等。实际生活中,你永远也看不到完全的正态分布的另一原因是:根据定义连续分布有无限的可能结果(数学上为了精确定义,我们应该说“不可数的无限”)。上图1说明了这一点,图中的分布曲线是连续的,没有中断。在实际中,这可能发生唯一的方式是你用无限位的小数来测量周期,即使当你测量后,把其转换为2位小数,很多值就不可能取到了,这就会使分布中断,在技术上称之为离散分布(统计学家会称为“可数的无限”),再次导致非正态。 ??? 或许你会说这是吹毛求疵的争论,但它揭示了为什么现实中没有数据能完全服从正态分布,即正态分布从现实意义上来说只是一个概念模型。所以现实数据没有完全的正态,而正态又是很多统计分析工具使用的前提,那么很多统计分析工具在实际中如何其作用呢?在实践中你不需要完全的正态,你只需要近似的正态即好。从图1看到,这些统计分析工具持续有效,直到你大大地偏离了正态。 ???? 关于正态假设的第二个原理:这个假设一般不应用于原始的未加工的数据,但用于模型的残差或误差项。如公司的总资产(x1)和分期偿还的年数(x2)的基础上,预测收购的商誉(Y),你可能会使用这个标准回归模型: Y=b0+β1X1+β2X2+ε,式中,ε代表残差或预测误差(模型预测和你实际观测到的差异);b0 代表常数项;β1,β2代表预测变量X1,X2的系数,在这个模型中,不是对商誉(Y)做正态假设,而是对残差值ε。因此在该情形下衡量正态假设的有效性,不是要衡量商誉的正态性,而是要进行回归分析对残差进行计算,并衡量残差的正态性。这种情况下应该寻求近似正态,而不是完全的正态。原始数据商誉的极端非正态,是残差很可能极端非正态的指示器,这一点成立。不过在很多情况下,原始数据不是近似正态,而残差是。这是因为原始数据包含了X变量的影响

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档