工业数据分析建模的实践与认识.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
工业数据 建模的实践与认识 宝钢中央研究院 郭朝晖 2015.7.7 引言:工业需要什么 内 容 实践中的几个困惑 简 介 数据建模的指导思想 开展项目的步骤与方法 总结 工业数据应用:冰火两重天 ? 1940年引入SPC技术 ? 设备诊断,很久很久以前... ? 数据挖掘,20多年前... ? 工业大数据方兴未艾.... 理论很热,现实很冷 ? 多数工作浅尝而止,难以深入 ? 要做深入的研究可能耗费半生 ? 我的一项工作,耗时整整12年 期望是龙,得到是虫 困难的本质 要求 落差大 故而困难 条件 理解工业:理论知识和实践经验丰富 新知识必须超越已有 认识才有使用价值。 有度难而无度易 《韩非子. 外储说左上》 理解工业:对可靠性要求高 可靠性与使用价值是硬币的两面 如果正确结论能带来巨大效益, 错误结论也可能带来巨大损失。 理论,是理想条件下的方法和原理; 实用,是各种条件、约束和环境下的成功。 理论,1%的成功是成功;实用,1%的失败是失败。 正常的运行最容易想到,异常如何发生往往想不到的。 可靠,常常是1行代码功能,10~100行防止异常。 理想是如何变冷的...... ?数据中有信息。 ?信息中有知识。 ?知识是有用的。 欲得其利,先知其弊 这些知识往往是: ?假的、错的、偏差大的 ?局部、暂时的,且范围不确定 ?正确却是已知、平庸的。 ?似乎有道理却难以证实。 引言:工业需要什么 内 容 实践中的几个困惑 简 介 数据建模的指导思想 开展项目的步骤与方法 总结 常见情况:分析结果不可重复 Ys=300+200*C+80*Mn+.......... Ys=230+800*C+40*Mn+.......... 没有共识的预测:可能是没用的 靠不住 结果很可能是海市蜃楼 奇怪现象之一:相互矛盾 局部与全局得到的结论,为何不吻合? 最小二乘法的失灵 y ? k ( x ? ? ) E ( ? k ) ? k Dx Dx ? D ? E ( ? ) ? k k 扭曲的原理 因 变 量 范 围 自变量实际范围 检测值变化范围 极限情况是:自变量本身不变,信号变化都是误差。 所谓成分测量值符合分形规律的说法,不靠谱。 测量误差无法忽略:背后的原因 在工作点附近, 测量精度是控制精度的瓶颈 悲崔的结论 ? 由高精度的模型是不存在的:精度有极限。 ? 误差最小的模型并不能逼近正确 – 前场而至的原因:线性回归逼近最小误差。 – 各种以误差最小为优化目标的算法统统失效。 ? 正确的模型误差较大 – 模型小是“错错得对”的结果 ? 误差最小的模型可靠度低 – 外延性差、时间稳定性差:与误差分布有关。 奇怪现象之二:新发现往往是错的 技术原理 可能发现 背后原因 厚度薄、强度高 粗轧温度无影响 厚度越厚强度越高 粗轧温度越高强度越高 厚度厚伴随卷取温度降低 粗轧温度高是厚度薄所致 粗轧温度 终轧温度 卷取温度 轧制过程 冷却段 奇怪现象之二:新发现往往是错的 工业生产系统是复杂的系统 人们根据知识设计前馈或反馈 外在的相关关系往往与单纯物理关系不一致 厚度 性能 生 粗轧温度 产 过 卷取温度 程 奇怪现象之三:总不收敛 y f ? x ? y ? f (x) ?? 希望 大数据背景 理想:可拟合成光滑曲线 现实:仍然很乱 现象背后:被忽视的系统干扰 初到宝钢的困惑:缺陷发生率不稳定 有些因素不是直接影响因素。 ? 每年发生率不同。 很难想到,却影响很大。 它或许不可知,却并不随机。 – 与钢种有关 ? 固定钢种: 指标变量 – 与精整有关 ? 再固定精整: – 与宽度有关 输入 对象1 输出 ? 再固定宽度: – 与检查人员相关。 测量 实际 数值 数值 ? 再固定检查人员: 对象3 – 与正反面相关。 ? ........ 一个生活中的例子 1. 不堵时,分别耗时40、42、36、49分 钟,时间误差正负5%。 2. 周四、五,外环堵车43分钟。早高峰 时翔殷路隧道堵车20分钟。国定路堵 10分钟。堵车时间误差正负35%。 可以走四条路 1. 自驾车。 2. 走外环隧道。 3. 礼拜一晚上。 现实中的许多问题也不是概率问题 但能固定条件后能转化为概率问题。 平均40分钟,标准差5分钟。 y ? f ( x,? , r ) y ? f ( x)? ? 因为不可见,将其看做随机因素 未必依照某个概率分布发生 概率分布:不确定性中的规律 引言:工业需要什么 内 容 实践中的几个困惑 简 介 数据建模的指导思想 开展项目的步骤与方法 总结 不是路到了尽头, 而是到了该转弯的时候.... 数据分析:指导思想 用数据发现背后的规律:正确的模型 反对用复杂化降低误差 科学规律才是真正可靠的 意识到误差最小与正确性的差异, 不能盲目追求误

文档评论(0)

137****0427 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档