- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
预测模型的基本概念
1. 预测模型
首先,什么是模型?所谓模型就是用数学的语言和逻辑来对某个现象的内在规律进行描述。而预测模型就是通过对过去已经发生的数据进行分析之后,预测接下来一段时间内将要发生的情况。
预测模型里我们经常听到两个概念,一个叫自变量,一个叫因变量。简单说,自变量就是你要做预测的依据,因变量就是你要预测的对象。
比如,你想通过一个人的身高的数据来推测体重,身高在这里就是自变量,体重就是因变量;你想通过一个员工的加班小时数来推测他的绩效,那么,加班小时数就是自变量,绩效就是因变量。
一个模型要预测准确,有几个很重要的因素,第一,有过往历史数据的积累,积累的越多对发现数据的内在规律更有利、预测效果会更好;第二,相关自变量的选取合理,变量越和预测结果相关,模型就越准确。
前面讲的“准确”,其实是相对的准确。没有哪个模型可以一直实现完全100%的准确预测,如果有,那是神仙。尽管如此,人们依然会尝试去建立预测模型,通常是基于以下考虑:
第一,用模型去预测未来某个事情发生的概率大小,并据此来提前防范或配置相关的资源。比如,天气预报就属于这种情况。
第二,通过建立模型去发现那些对最后结果有重大影响的因素,甚至排列出它们对结果的影响大小,这样人们就可以提前有的放矢地对结果进行干预。
从人力资源管理角度来看,比较常用的预测模型通过两种方法建立的:一种是线性回归,就是试图在两组连续的数字变量之间建立起直线的关系,然后用一组数据来推测另一组数据。比如,前面讲到的,用员工的加班小时数来推测他的工作绩效(如果工作绩效可以量化的话),比如用广告费来推测销售额、用员工的加班小时数来预测员工的人均产出;
另一种是逻辑回归,这个时候预测的是一种事件发生的可能性。比如:通过跳槽次数、工作年限、性格测评分数、薪资区间等自变量来预测一个员工是否会主动离职,等等。
2. 置信区间
置信区间来自英文,全称叫Confidence Interval,也可以缩写为CI。为什么会有置信区间这个概念?正因为预测模型做不到预测结果的100%准确,所以人们想办法让预测结果落在一个相对合理区间内,这个区间就叫做置信区间。
回想一下你上学的时候,某门课程考试结束之后让你预测会考多少分一般很难,但是预测一个区间(比如,80-90分)却是相对容易的事情。置信区间也是同样的道理。
昨天看到一条媒体报道:西安交大数学与统计学院生物数学团队与陕西师范大学生物数学团队,以及来自加拿大的科研团队合作,利用1月10日至1月22日的报告疫情数据,采用动力学模型和统计计算方法,预测出此次武汉新型冠状病毒肺炎传播的基本再生数为6.47(95%置信区间为5.71-7.23)。
翻译过来就是:研究人员预测平均每个患者会感染另外6.47个其他人。而且,研究人员有95%的把握认为这个数值是介于5.71-7.23之间。
3. 阈(yu)值
英文名叫threshold,又叫临界值,就是某个效应能够产生的最高值或最低值。比如,在传染病模型中,感染人数的阈值就是一个非常重要的临界点,假如人数超过阈值,就意味着情况进入了一个更严重的阶段。
4. 样本与总体
顾名思义,样本数据就是从总体数据中抽取的一部分。为什么样本很重要?因为总体数据往往规模很大,无法做到一一详细了解,这个时候人们就希望通过抽取样本,用样本来代替总体。
在本次疫情初期,我们就看到很多模型通过计算样本人群的病例数来推导整体人群的病例数。比如,英国理工大学是用从武汉机场出境人员作为样本,以出境人员的病例数来推算武汉总体人群的病例数。
用样本来推总体最重要的一点是样本要尽可能的具有代表性。从这个角度来看,英国理工大学的这个样本选取其实是有不足的,比如:出境人员可能以白领、高收入人群居多,他们对于武汉的整体人群也许并无真正的代表性。
而另一篇文章的分析就显得更为合理一些,它以武汉封城前全体离开武汉的人员(500万人离城,其中35%去了省外)作为一个大样本,然后通过当时省外的病例数来推导武汉整体的病例数。和前面那个预测数相比,这个数字也和后来官方宣布的武汉在建病床数更接近。
但是,即便这样选取样本,依然存在一定不足,比如:相比于留在武汉的人群,可能离开的这部分人员更为年轻、身体也更为健康。在预测最终结果时,都需要把这些因素考虑进去。
您可能关注的文档
- 行政事业单位国有资产处置审批表(办公用品、电脑、风扇及其他 ).doc
- 货比三家询价采购程序.doc
- 基本公共卫生服务项目(资金管理)考核表.doc
- 基层医疗卫生机构暂不具备条件开展项目申请表.doc
- 乡镇卫生院五室建设开支统计.doc
- 医疗机构张贴附件(购药须知).doc
- 《卫生健康年鉴》征订单登记表格模板.docx
- 村级基本公共卫生服务项目资金发放清册.docx
- 公务接待费的基本注意事项.docx
- 公务人员常用差旅费报销标准表(科级以下人员).docx
- 使用 MLflow 加速机器学习生命周期 AI论文收集资料.pdf
- 衔接点03 文言文阅读之内容的理解与概括(原卷版)2025年小升初语文无忧衔接(统编版2024).doc
- 衔接点04 文言文阅读之开放题(原卷版)2025年小升初语文无忧衔接(统编版2024).doc
- 数据库防火墙-qax.pdf
- 衔接点05 诗歌鉴赏之理解内容(原卷版)2025年小升初语文无忧衔接(统编版2024).doc
- 实验室常见表格汇编.pdf
- 衔接点19 名家作品阅读之史铁生(原卷版)2025年小升初语文无忧衔接(统编版2024).doc
- 衔接点19 名家作品阅读之史铁生(解析版)2025年小升初语文无忧衔接(统编版2024).doc
- 罗皓文【贾勇指导】:推介张子涛语文之野望、黄鹤楼.doc
- 图网 ANN AI论文收集资料.pdf
最近下载
- TCECS1571-2024 近现代保护建筑结构维护与加固技术规程.pdf VIP
- 2024道路车辆信息安全工程.docx VIP
- 热力公司(城市供热)安全生产风险分级管控体系方案资料汇编(2022-2023).pdf VIP
- 2025年9月6日云南迪庆州直遴选笔试真题及答案解析.doc
- 2019年一级建造师水利水电实务案例一建真题及解析.pdf VIP
- 一年级上册道德与法治《拉拉手,交朋友》教学设计.docx VIP
- 土方挖运工程施工方案(3篇).docx
- 教师调课登记表(模板).pdf VIP
- 小学美术课程中数字媒体艺术的应用研究教学研究课题报告.docx
- (2025秋新版)苏教版科学三年级上册全册教学设计 .pdf VIP
文档评论(0)