诺维信杯-北京大学数学科学学院.docVIP

下载本文档

43
0
约3.07千字
约 6页
2017-11-25 发布于天津
举报
版权申诉

诺维信杯-北京大学数学科学学院.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

诺维信杯-北京大学数学科学学院

“亲近生活，美化生活”2010统计创新大赛参赛指南竞赛说明宝洁公司、中国概率统计学会和北京大学概率统计系，共同邀请中国高校和研究所的统计相关专业研究学者和在校学生，参加“亲近生活，美化生活”2010统计创新大赛。宝洁公司将和中国概率统计学会专家组成竞赛评审委员会，制定评奖规则，评价参赛者提交的技术方案。获奖的技术方案将获得现金奖励。本指南将给出宝洁寻求解决方案的技术课题，并提供参加大赛的确认表模版。研究课题宝洁公司根据实际工作中统计建模方面的困难总结提炼出如下两个关于统计建模方法及统计模型评价的课题课题1：背景及统计的作用：洗衣粉是通过其中的化学成分溶于水后改变水溶液的物理化学性质来实现去污的作用的，因此通过测量洗衣产品溶于水后的溶液的一些属性就可以了解产品去污的功效。如果能建立溶液属性和产品功效之间的模型，就可以找出能够最大化产品功效的溶液的属性，根据这些属性和化工技术知识我们就可以找出最优的配方。试验：为了研究洗衣粉溶液的物理属性对去污功效的影响，我们分别测量了96个不同产品溶液的物理属性和它们的去污效果的数据已有的数据：现有96个产品的物理属性及功效数据，从中随机选取了10个产品作为验证模型预测精度的数据，请用剩下的86组数据来建立模型每一个产品的21个属性作为输入变量 (PP1—PP21) 产品在18种污渍上的功效作为输出变量 (O1—O18) 要求：请根据现有数据拟合出一个统计模型，模型能够基于产品的属性数据对产品的功效做出比较可靠的预测考虑所有输入变量的线性项，根据模型的需要选择它们的平方项及交互作用项；对此数据用多种不同的方法进行分析；选择合适的能够反映模型预测能力的评价准则（可以根据需要提出新的准则），并根据准则选出最优的建模方法和最优模型；提供数据说明拟合出的模型的预测能力。注意：某些产品的某些属性有缺失数据，但用来验证模型的10组数据里没有缺失值。模型评价标准：比较随机抽取的10个产品的真实数据与模型预测值的区别，计算MSE（Mean Square Error），并根据MSE来计算出每一参赛者的综合得分。具体计算方法如下：参赛者建立的每一种污渍的模型都会根据相应的MSE在所有参赛者中的排名来获得相应的分数。如果排名第一，得10分，排名第二，得8分，以此类推，排名第五，得2分，第六名及之后不得分；将每一参赛者在所有模型上的得分取平均，作为参赛者的综合得分。课题2 背景及统计的作用：一个洗衣粉产品的清洁能力好坏受很多因素的影响，例如：配方中的每一成分的多少洗衣的方法及环境条件（洗衣时间的长短，洗衣用水的情况等）如果能通过统计建模的方法建立一个用配方及洗衣条件来预测产品功效的模型，就可以了解产品中每一成分，及洗衣的方法、条件等因素对产品清洁能力的影响；在给出产品的配方时对产品在一定条件下的清洁能力做出比较可靠的预测；在一定的条件下，优化产品的配方。试验：根据目标，我们设计了一个250个不同处理组合（Treatment）的试验：设计时考虑的因素有产品的配方中每一成分的量及洗衣条件，每一因素有三个水平；用设计所得的每一个配方的产品去洗涤一些衣物，根据洗涤后衣物的清洁程度计算出每一配方的清洁能力（试验中衣物的初始脏度可能会有一些波动，所以拟合模型时需要考虑到它的影响）；每四个配方作为一组来进行试验（这样就产生了一个区组的效应需要在建模时考虑）； 250个处理之外我们还测试了16个额外的配方用来验证模型预测的准确性。已有的数据： 250个不同处理组合（Treatment）的试验数据输入变量包括：配方中的20种成分 (C1—C20) 洗衣方法及洗衣环境参数 4 个 (P1—P4) 区组 (block) 衣物初始的脏度 (Baseline1—Baseline5，分别对应5种污渍) 输出变量为：产品在5种不同种类污渍上的清洁功效（Cleaning1—Cleaning5）要求：对此数据选用不同的统计方法进行分析，建立一个用产品配方来预测产品清洁能力模型；需要考虑的效应为所有变量的线性项，C1—C20、P1—P4的平方项及交互作用项；将对应每一污渍初始的脏度（Baseline1—Baseline5）作为协变量放入模型，例如对Cleaning1建模时，需将Baseline1作为协变量加入模型，依此类推；试用多种不同的模型选择方法对数据进行分析；选择合适的能够反映模型预测能力的评价准则（可以根据需要提出新的准则），并根据所选准则找出最优模型；提供数据说明拟合出的模型的预测能力。注意：如果同时考虑所有的线性项、平方项和交互作用项的话，所有要估计的参数的个数远大于处理组合的个数(250)。模型评价标准：比较16个验