预测模型的基本概念.docxVIP

下载本文档

125
0
约1.8千字
约 3页
2023-02-03 发布于重庆
举报
版权申诉

预测模型的基本概念.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

预测模型的基本概念 1. 预测模型首先，什么是模型？所谓模型就是用数学的语言和逻辑来对某个现象的内在规律进行描述。而预测模型就是通过对过去已经发生的数据进行分析之后，预测接下来一段时间内将要发生的情况。预测模型里我们经常听到两个概念，一个叫自变量，一个叫因变量。简单说，自变量就是你要做预测的依据，因变量就是你要预测的对象。比如，你想通过一个人的身高的数据来推测体重，身高在这里就是自变量，体重就是因变量；你想通过一个员工的加班小时数来推测他的绩效，那么，加班小时数就是自变量，绩效就是因变量。一个模型要预测准确，有几个很重要的因素，第一，有过往历史数据的积累，积累的越多对发现数据的内在规律更有利、预测效果会更好；第二，相关自变量的选取合理，变量越和预测结果相关，模型就越准确。前面讲的“准确”，其实是相对的准确。没有哪个模型可以一直实现完全100%的准确预测，如果有，那是神仙。尽管如此，人们依然会尝试去建立预测模型，通常是基于以下考虑：第一，用模型去预测未来某个事情发生的概率大小，并据此来提前防范或配置相关的资源。比如，天气预报就属于这种情况。第二，通过建立模型去发现那些对最后结果有重大影响的因素，甚至排列出它们对结果的影响大小，这样人们就可以提前有的放矢地对结果进行干预。从人力资源管理角度来看，比较常用的预测模型通过两种方法建立的：一种是线性回归，就是试图在两组连续的数字变量之间建立起直线的关系，然后用一组数据来推测另一组数据。比如，前面讲到的，用员工的加班小时数来推测他的工作绩效（如果工作绩效可以量化的话），比如用广告费来推测销售额、用员工的加班小时数来预测员工的人均产出；另一种是逻辑回归，这个时候预测的是一种事件发生的可能性。比如：通过跳槽次数、工作年限、性格测评分数、薪资区间等自变量来预测一个员工是否会主动离职，等等。 2. 置信区间置信区间来自英文，全称叫Confidence Interval，也可以缩写为CI。为什么会有置信区间这个概念？正因为预测模型做不到预测结果的100%准确，所以人们想办法让预测结果落在一个相对合理区间内，这个区间就叫做置信区间。回想一下你上学的时候，某门课程考试结束之后让你预测会考多少分一般很难，但是预测一个区间（比如，80-90分）却是相对容易的事情。置信区间也是同样的道理。昨天看到一条媒体报道：西安交大数学与统计学院生物数学团队与陕西师范大学生物数学团队，以及来自加拿大的科研团队合作，利用1月10日至1月22日的报告疫情数据，采用动力学模型和统计计算方法，预测出此次武汉新型冠状病毒肺炎传播的基本再生数为6.47（95%置信区间为5.71-7.23）。翻译过来就是：研究人员预测平均每个患者会感染另外6.47个其他人。而且，研究人员有95%的把握认为这个数值是介于5.71-7.23之间。 3. 阈（yu）值英文名叫threshold，又叫临界值，就是某个效应能够产生的最高值或最低值。比如，在传染病模型中，感染人数的阈值就是一个非常重要的临界点，假如人数超过阈值，就意味着情况进入了一个更严重的阶段。 4. 样本与总体顾名思义，样本数据就是从总体数据中抽取的一部分。为什么样本很重要？因为总体数据往往规模很大，无法做到一一详细了解，这个时候人们就希望通过抽取样本，用样本来代替总体。在本次疫情初期，我们就看到很多模型通过计算样本人群的病例数来推导整体人群的病例数。比如，英国理工大学是用从武汉机场出境人员作为样本，以出境人员的病例数来推算武汉总体人群的病例数。用样本来推总体最重要的一点是样本要尽可能的具有代表性。从这个角度来看，英国理工大学的这个样本选取其实是有不足的，比如：出境人员可能以白领、高收入人群居多，他们对于武汉的整体人群也许并无真正的代表性。而另一篇文章的分析就显得更为合理一些，它以武汉封城前全体离开武汉的人员（500万人离城，其中35%去了省外）作为一个大样本，然后通过当时省外的病例数来推导武汉整体的病例数。和前面那个预测数相比，这个数字也和后来官方宣布的武汉在建病床数更接近。但是，即便这样选取样本，依然存在一定不足，比如：相比于留在武汉的人群，可能离开的这部分人员更为年轻、身体也更为健康。在预测最终结果时，都需要把这些因素考虑进去。