SPCQuAInS质量大数据技术的几个重要问题(科普及指引).pdfVIP

下载本文档

5
0
约 3页
2015-08-05 发布于重庆
举报
版权申诉

SPCQuAInS质量大数据技术的几个重要问题(科普及指引).pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SPCQuAInS质量大数据技术的几个重要问题(科普及指引).pdf

QuAInS：质量大数据技术的几个重要问题（科普及指引）在应用大数据技术挖掘流程和质量数据中的重要信息和价值之前，有很多重要的内容是我们需要了解的，这可以帮助我们在相关实践的过程中避免很多错误。请看 SPC 系统和质量大数据专家萃盈科技(QuAInS)的说明： 1.有监督的学习和无监督的学习：有监督的学习(Supervised learning)是指在数据中有输入变量和输出变量，我们可以建立从输入变量映射到输出变量的模型，并对模型进行优化，然后通过这个优化的模型对输出变量的未知情况进行预测。比如在统计过程控制SPC 中，根据历史数据(在过去，质量专家已经做了大量的研究)，人们得到了多条SPC 判异准则(可以认为每条判异准则这是一个模型)，比如有一点超过控制线即判断为异常。当新的生产数据出现后，我们就可以通过这条准则去判断新数据是否为异常了。再比如，人的身高和体重之间通常存在着一定的关系，于是，我们就可以通过对一部分人身高和体重数据的研究得到一个模型，此后，当我们知道一个人的身高时，就能大致知道其体重是多少了。无监督学习(Unsupervised learning)是指数据集中没有区分输入变量或者输出变量，需要直接对数据进行建模。比如在质量检验中，我们将外观不良的产品放在一起，而将加工精度不够的放在另一边，将发生了扭曲的产品放在第三个位置等。 2.常见的有监督学习的情形有哪些？根据输出变量的类型不同，有监督的学习主要有两种情形：回归(Regression)：针对输出变量为连续变两个的情形。常用方法包括线性建模和非线性建模，其中线性建模方法有一元/ 多元线性回归、逐步回归、岭回归、套索(Lasso)、主成分回归、偏最小二乘法，Sure independent screen (当样本数据量n 比输入变量的维数P 小得多时，可以使用这一方法选择n/logn 个最相关的变量，该方法对下面要讲的分类问题同样适用)等；分类(Classification)两种：针对输出变量为离散（分类）变量的情形。常用方法把包括线性判别分析(LDA: Linear Discriminant Analysis) 、二次判别分析、Logistic Regression、分离超平面方法等。顺便说一句，就LDA 和Linear Discriminant Analysis 而言，通常认为Logistic Regression 比LDA 更安全、更健壮、它依赖于较少的假设。 3. 常见的无监督学习的情形有哪些？常见的无监督学习的方法和应用场景包括: 关联规则，通常用于购物篮分析，如消费者在购买A 商品的时候，倾向于同时购买B 商品；类似于在质量管理领域，一款产品在发生A 类不良的时候，也同时倾向于发生B 种不良。聚类分析：通过描述对象的几个维护的数据，分析对象之间的相似度(或相异度) ，将它们分为几类。自组织映射：可用于文档的组织和检索；目前，更多无监督学习方法在快速发展和更新中。 4.如何评估模型的好坏并加以选择？当数据量足够时，最好的方法随机地将数据集分成三个部分：训练集(Train set)、验证集(Validation set)和检验集(Test set) 。训练集用于拟合模型，验证集用于评估模型的预测误差以选择预测误差最小的模型，检验集用于估计最终选定的模型用于预测时的泛化误差(Generalization error) 。其中，“检验集”应该直到数据分析结束时才能使用，否则就需要假定我们重复地使用检验集，在模型选择时考虑选取具有最小检验集误差的模型。上述三个部分各占多少比例并没有严格的标准，其比例取决于数据的信噪比和样本容量，需要根据实际情况进行判断。典型的情况可能是训练集占50% ，验证集和检验集各占25% 。多少数据才算“数据量足够”呢，对于这点并没有严格的规则，其依赖于潜在模型的信噪比和复杂性，需要根据实际情况进行判断。当数据量不足时，我们通常使用一些分析指标（如AIC 、BIC、MDL、SRM 等）进行模型选择，或者通过有效样本复用（如交叉验证或自助法(Bootstrap) ）近似地实现验证（对于交叉验证，一般情况下，5 折或 10 折已被推荐为较好的折中方案）。 5. 关于模型的误差：一般而言，我们可以用平方误差损失来衡量线性回归模型“Y=f(x)+Ƹ”的预测误差，其预测误差可以分解为 2 三个部分：ERR=预测方差+预测偏倚 + Ƹ 的方差。其中Ƹ服从正态分布，其方差是无法避免的。对于K-最