- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
工业数据
建模的实践与认识
宝钢中央研究院 郭朝晖
2015.7.7
引言:工业需要什么
内
容
实践中的几个困惑
简
介
数据建模的指导思想
开展项目的步骤与方法
总结
工业数据应用:冰火两重天
? 1940年引入SPC技术
? 设备诊断,很久很久以前...
? 数据挖掘,20多年前...
? 工业大数据方兴未艾....
理论很热,现实很冷
? 多数工作浅尝而止,难以深入
? 要做深入的研究可能耗费半生
? 我的一项工作,耗时整整12年
期望是龙,得到是虫
困难的本质
要求
落差大
故而困难 条件
理解工业:理论知识和实践经验丰富
新知识必须超越已有
认识才有使用价值。
有度难而无度易 《韩非子. 外储说左上》
理解工业:对可靠性要求高
可靠性与使用价值是硬币的两面
如果正确结论能带来巨大效益,
错误结论也可能带来巨大损失。
理论,是理想条件下的方法和原理; 实用,是各种条件、约束和环境下的成功。
理论,1%的成功是成功;实用,1%的失败是失败。
正常的运行最容易想到,异常如何发生往往想不到的。
可靠,常常是1行代码功能,10~100行防止异常。
理想是如何变冷的......
?数据中有信息。
?信息中有知识。
?知识是有用的。
欲得其利,先知其弊 这些知识往往是:
?假的、错的、偏差大的
?局部、暂时的,且范围不确定
?正确却是已知、平庸的。
?似乎有道理却难以证实。
引言:工业需要什么
内
容
实践中的几个困惑
简
介
数据建模的指导思想
开展项目的步骤与方法
总结
常见情况:分析结果不可重复
Ys=300+200*C+80*Mn+..........
Ys=230+800*C+40*Mn+..........
没有共识的预测:可能是没用的
靠不住
结果很可能是海市蜃楼
奇怪现象之一:相互矛盾
局部与全局得到的结论,为何不吻合?
最小二乘法的失灵
y ? k ( x ? ? )
E (
?
k
)
?
k
Dx
Dx
?
D ?
E ( ? ) ?
k
k
扭曲的原理
因
变
量
范
围
自变量实际范围
检测值变化范围
极限情况是:自变量本身不变,信号变化都是误差。
所谓成分测量值符合分形规律的说法,不靠谱。
测量误差无法忽略:背后的原因
在工作点附近, 测量精度是控制精度的瓶颈
悲崔的结论
? 由高精度的模型是不存在的:精度有极限。
? 误差最小的模型并不能逼近正确
– 前场而至的原因:线性回归逼近最小误差。
– 各种以误差最小为优化目标的算法统统失效。
? 正确的模型误差较大
– 模型小是“错错得对”的结果
? 误差最小的模型可靠度低
– 外延性差、时间稳定性差:与误差分布有关。
奇怪现象之二:新发现往往是错的
技术原理 可能发现
背后原因
厚度薄、强度高
粗轧温度无影响
厚度越厚强度越高
粗轧温度越高强度越高
厚度厚伴随卷取温度降低
粗轧温度高是厚度薄所致
粗轧温度 终轧温度 卷取温度
轧制过程
冷却段
奇怪现象之二:新发现往往是错的
工业生产系统是复杂的系统 人们根据知识设计前馈或反馈 外在的相关关系往往与单纯物理关系不一致
厚度
性能
生
粗轧温度
产
过 卷取温度 程
奇怪现象之三:总不收敛
y f ? x ? y
? f (x) ??
希望
大数据背景
理想:可拟合成光滑曲线
现实:仍然很乱
现象背后:被忽视的系统干扰
初到宝钢的困惑:缺陷发生率不稳定
有些因素不是直接影响因素。
? 每年发生率不同。 很难想到,却影响很大。
它或许不可知,却并不随机。 – 与钢种有关
? 固定钢种:
指标变量
– 与精整有关
? 再固定精整:
– 与宽度有关
输入 对象1 输出
? 再固定宽度:
– 与检查人员相关。
测量 实际
数值 数值
? 再固定检查人员: 对象3
– 与正反面相关。
? ........
一个生活中的例子
1. 不堵时,分别耗时40、42、36、49分
钟,时间误差正负5%。
2. 周四、五,外环堵车43分钟。早高峰
时翔殷路隧道堵车20分钟。国定路堵
10分钟。堵车时间误差正负35%。
可以走四条路
1. 自驾车。
2. 走外环隧道。
3. 礼拜一晚上。
现实中的许多问题也不是概率问题
但能固定条件后能转化为概率问题。
平均40分钟,标准差5分钟。
y ? f ( x,? , r )
y ? f ( x)? ?
因为不可见,将其看做随机因素
未必依照某个概率分布发生
概率分布:不确定性中的规律
引言:工业需要什么
内
容
实践中的几个困惑
简
介
数据建模的指导思想
开展项目的步骤与方法
总结
不是路到了尽头,
而是到了该转弯的时候....
数据分析:指导思想
用数据发现背后的规律:正确的模型
反对用复杂化降低误差
科学规律才是真正可靠的
意识到误差最小与正确性的差异,
不能盲目追求误
原创力文档


文档评论(0)