- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SPCQuAInS质量大数据技术的几个重要问题(科普及指引).pdf
QuAInS:质量大数据技术的几个重要问题 (科普及指引)
在应用大数据技术挖掘流程和质量数据中的重要信息和价值之前,有很多重要的内容是我们需要了解的,
这可以帮助我们在相关实践的过程中避免很多错误。请看 SPC 系统和质量大数据专家萃盈科技(QuAInS)的
说明:
1.有监督的学习和无监督的学习:
有监督的学习(Supervised learning)是指在数据中有输入变量和输出变量,我们可以建立从输入变量映射到
输出变量的模型,并对模型进行优化,然后通过这个优化的模型对输出变量的未知情况进行预测。比如在
统计过程控制SPC 中,根据历史数据(在过去,质量专家已经做了大量的研究),人们得到了多条SPC 判异
准则(可以认为每条判异准则这是一个模型),比如有一点超过控制线即判断为异常。当新的生产数据出现
后,我们就可以通过这条准则去判断新数据是否为异常了。再比如,人的身高和体重之间通常存在着一定
的关系,于是,我们就可以通过对一部分人身高和体重数据的研究得到一个模型,此后,当我们知道一个
人的身高时,就能大致知道其体重是多少了。
无监督学习(Unsupervised learning)是指数据集中没有区分输入变量或者输出变量,需要直接对数据进行建
模。比如在质量检验中,我们将外观不良的产品放在一起,而将加工精度不够的放在另一边,将发生了扭
曲的产品放在第三个位置等。
2.常见的有监督学习的情形有哪些?
根据输出变量的类型不同,有监督的学习主要有两种情形:
回归(Regression):针对输出变量为连续变两个的情形。常用方法包括线性建模和非线性建模,其中线性建
模方法有一元/ 多元线性回归、逐步回归、岭回归、套索(Lasso)、主成分回归、偏最小二乘法,Sure independent
screen (当样本数据量n 比输入变量的维数P 小得多时,可以使用这一方法选择n/logn 个最相关的变量,
该方法对下面要讲的分类问题同样适用)等;
分类(Classification)两种:针对输出变量为离散(分类)变量的情形。常用方法把包括线性判别分析(LDA: Linear
Discriminant Analysis) 、二次判别分析、Logistic Regression、分离超平面方法等。顺便说一句,就LDA 和Linear
Discriminant Analysis 而言,通常认为Logistic Regression 比LDA 更安全、更健壮、它依赖于较少的假设。
3. 常见的无监督学习的情形有哪些?
常见的无监督学习的方法和应用场景包括:
关联规则,通常用于购物篮分析,如消费者在购买A 商品的时候,倾向于同时购买B 商品;类似于在质量
管理领域,一款产品在发生A 类不良的时候,也同时倾向于发生B 种不良。
聚类分析:通过描述对象的几个维护的数据,分析对象之间的相似度(或相异度) ,将它们分为几类。
自组织映射:可用于文档的组织和检索;
目前,更多无监督学习方法在快速发展和更新中。
4.如何评估模型的好坏并加以选择?
当数据量足够时,最好的方法随机地将数据集分成三个部分:训练集(Train set)、验证集(Validation set)和检
验集(Test set) 。训练集用于拟合模型,验证集用于评估模型的预测误差以选择预测误差最小的模型,检验
集用于估计最终选定的模型用于预测时的泛化误差(Generalization error) 。其中,“检验集”应该直到数据分
析结束时才能使用,否则就需要假定我们重复地使用检验集,在模型选择时考虑选取具有最小检验集误差
的模型。上述三个部分各占多少比例并没有严格的标准,其比例取决于数据的信噪比和样本容量,需要根
据实际情况进行判断。典型的情况可能是训练集占50% ,验证集和检验集各占25% 。
多少数据才算“数据量足够”呢,对于这点并没有严格的规则,其依赖于潜在模型的信噪比和复杂性,需
要根据实际情况进行判断。
当数据量不足时,我们通常使用一些分析指标(如AIC 、BIC、MDL、SRM 等)进行模型选择,或者通过有
效样本复用(如交叉验证或自助法(Bootstrap) )近似地实现验证 (对于交叉验证,一般情况下,5 折或 10
折已被推荐为较好的折中方案)。
5. 关于模型的误差:
一般而言,我们可以用平方误差损失来衡量线性回归模型“Y=f(x)+Ƹ”的预测误差,其预测误差可以分解为
2
三个部分:ERR=预测方差+预测偏倚 + Ƹ 的方差。其中Ƹ服从正态分布,其方差是无法避免的。对于K-最
原创力文档


文档评论(0)