服务类六西格玛的独特技术挑战.docVIP

下载本文档

0
0
约3.37千字
约 3页
2017-09-02 发布于重庆
举报
版权申诉

服务类六西格玛的独特技术挑战.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

服务类六西格玛的独特技术挑战-非正态数据处理战略 ? ??执行或推行六西格玛同志们或许能有这样的感受：在服务类六西格玛项目执行过程中，绿带或黑带遇到的最大六西格玛技术问题挑战之一就是：一些偏斜数据分布或称之为非正态分布数据。诚然这个问题在制造领域也会出现，但在制造领域之外才更加常见。我们先讨论其本质，然后提出一些符合理论的，在实践中又有效解决这个问题的对策。 ??? 在管理活动中最常遇到的连续分布是正态分布，又称高斯分布，用来描述随即变量（如月销售额）其取值的规律性。数学理论上可证明，如果某项指标受到很多项随机因素的干扰或影响，而每项干扰或影响很小的话，则所有干扰影响的综合结果将导致此项指标的分布为正态分布。下图1表示平均值为100，标准差为3的正态分布。实践中我们经常会发现，其它的均值和标准差不同的正态分看上去和下图比较相似，唯一不同是曲线底部的跨度不同。 ???? 正态分布是常见统计分析工具的基础，因为大部分统计分析工具使用的前提假定就是数据服从正态分布，相应地使用统计分析工具有效性的关键就取决于这一假定的真实性。如过程能力分析、方差分析、T-test、标准回归分析、信赖区间、控制图等。实际中数据不服从正态分布，又不知道偏斜数据分布产生的原因，该如何办呢？ ???? 图2表示人力招募周期的数据，也就是从招募需求填单时间到招募人力入职报到时间的数据。从这些数据看来与图1中的数据完全不同，它们可称为是“右倾”的，因为这些数据是倾斜的（不对称的），并且分布的高度沿着横轴逐渐减小。这类数据在非制造领域是常见的。这种情况下，数据分布趋势发生倾斜是因为不会出现负招募时间。 ?非正态数据趋势也常常会以其它方式出现，比如把一个范围是1~10的量测等级当作连续变量。该情形下，数据应该是离散的，由于只能取到10个独立的值，因此数据不能服从连续的正态分布。 ????所以如果很多统计分析工具采用正态分布，而周期量测等非制造领域以外的项目中的数据常常出现偏斜的，这意味着你不能在此类型情形中应用统计分析工具吗？乍一看，这是合理的假设，且很不幸，很多六西格玛提供商和顾问已经讲授过这个问题。实际上并不是这样的，我们可以应用标准统计分析工具，但我们必须要有更深层次的技术上的理解，从而决定如何来应用它。为了说明怎么做，我们会详细介绍正态分布和正态假设，然后再讨论如何来分析非常态数据。 ??? 最需要了解的原理是正态分布是一个概念模型，即理论上存在，但现实中并不存在。因此真正要回答的问题不是数据是否服从正态分布（它们不可能服从！），而是数据是否近似正态。正态分布实际上不存在的说法或许觉得惊讶，但当我们仔细分析了正态分布后就显而易见了。 ??? 上图1说明，理论上的正态分布覆盖了从负无穷大到正无穷大，即没有最大或最小值。因此，现实中的数据若要服从这一分布，其最大和最小端就都没有边界，而现实中不可能做到这一点。如时间是关键质量特性，你无法观察到负的时间，因此时间不可能完全是正态分布，类似还有资金等。实际生活中，你永远也看不到完全的正态分布的另一原因是：根据定义连续分布有无限的可能结果（数学上为了精确定义，我们应该说“不可数的无限”）。上图1说明了这一点，图中的分布曲线是连续的，没有中断。在实际中，这可能发生唯一的方式是你用无限位的小数来测量周期，即使当你测量后，把其转换为2位小数，很多值就不可能取到了，这就会使分布中断，在技术上称之为离散分布（统计学家会称为“可数的无限”），再次导致非正态。 ??? 或许你会说这是吹毛求疵的争论，但它揭示了为什么现实中没有数据能完全服从正态分布，即正态分布从现实意义上来说只是一个概念模型。所以现实数据没有完全的正态，而正态又是很多统计分析工具使用的前提，那么很多统计分析工具在实际中如何其作用呢？在实践中你不需要完全的正态，你只需要近似的正态即好。从图1看到，这些统计分析工具持续有效，直到你大大地偏离了正态。 ???? 关于正态假设的第二个原理：这个假设一般不应用于原始的未加工的数据，但用于模型的残差或误差项。如公司的总资产（x1）和分期偿还的年数（x2）的基础上，预测收购的商誉（Y），你可能会使用这个标准回归模型： Y=b0+β1X1+β2X2+ε,式中，ε代表残差或预测误差（模型预测和你实际观测到的差异）；b0 代表常数项；β1，β2代表预测变量X1，X2的系数，在这个模型中，不是对商誉（Y）做正态假设，而是对残差值ε。因此在该情形下衡量正态假设的有效性，不是要衡量商誉的正态性，而是要进行回归分析对残差进行计算，并衡量残差的正态性。这种情况下应该寻求近似正态，而不是完全的正态。原始数据商誉的极端非正态，是残差很可能极端非正态的指示器，这一点成立。不过在很多情况下，原始数据不是近似正态，而残差是。这是因为原始数据包含了X变量的影响