基干随机森林配网物资需求预测.docVIP

下载本文档

10
0
约3.18千字
约 7页
2017-05-31 发布于福建
举报
版权申诉

基干随机森林配网物资需求预测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基干随机森林配网物资需求预测

基于随机森林的配网物资需求预测　　摘要：目前国网公司按照层层汇总物资需求的方式开展配网物资需求采购计划，需求计划生产周期较长，且采购准确度较低，对生产物资的购置、供应计划、物资领用等环节产生不利影响，并增加了配网物资采购成本。文章关联配网工程项目特征与物资品类需求，通过哑变量的形式构建训练样本，基于随机森林算法对配网物资采购需求进行预测，提升预测精度，有效指导工程建设及生产计划的合理安排，降低采购成本关键词：随机森林;配网物资;需求预测中图分类号：TKl21 文献标识码：A 文章编号：1006-8937（2016）32-0136-02 1 研究背景国网公司总部物资部自2013年以来开展配网项目物资集中框架招标采购，实现协议库存管控模式，目前每年在3月、9月开展两次农配网物资需求计划安排工作，采用由下至上的工作模式，从生产一线开始对采购需求进行统计、估算、上报，经由地市公司、省公司层层汇总形成总体采购需求，由总部物资部和物资公司共同实施采购，涉及大量的审核、汇总工作因此，物资采购需求的产生周期较长，且省市公司物资部门普遍反映，根据预测结果框架招标采购的物资与配网工程建设实际需要的物资在数量上有较大的偏差。同时，公司配网建设所需的物资体量较大，对物资需求预测工作主要基于经验，缺乏农配网需求预测模型支持，导致项目建设所需物资不能按照工程要求准确到位，为了防止项目建设延期，往往过量上报物资需求，然而物资数量过多又会占用公司资金、造成库存物资积压的风险。因此，不准确的采购计划会对物资的采购、供应、暂存和领用等产生影响，导致配网物资整体管理效率降低随着国网公司信息系统的完善和业务数据的不断积累，可以通过历史数据构建农配网项目属性及建设内容与所需物资之间的映射关系，并基于下一年度的项目建设计划，从总体角度，分品类预测需要采购的物资数量，提升配网物资需求预测准确率，为企业物资采购批次计划执行提供科学依据，有效指导物资供应计划的合理安排，降低采购和库存成本、提高生产建设的精益化水平 2 模型原理为了依据农配网项目的建设计划预测物资采购需求，首先要提取农配网工程项目的项目特征值，以标记各工程项目的建设属性和建设内容，随后需要在已投产的项目记录基础上，构建工程建设特征和建设内容与其领用物资品类、数量之间的映射关系，最后通过学习及模拟工程建设特征和建设内容与物资领用品类、数量之间的函数关系来构建随机森林预测模型。具体的模型构建原理，如图1所示在提取项目特征值过程中，首先需要根据历史投产的配网工程项目名称创建配网专业词典，然后使用文本挖掘工具对项目名称中包含的重要特征值进行分词，随后根据各工程项目的物资领用信息归类合并具有相似性质的工程项目，固化成44个工程类型。具体词典创建原理和分词过程参见项目组前期研究成果（参见文章《配网工程项目词库创建及分词探索》）。在分词之后，将项目特征结合地市信息、项目类型、下达预算和历史项目中不同物料小类的物料领用总量共同作为随机森林预测模型的输入空间采用2013、2014年领料记录完整的历史项目物料小类采购数据作为训练集，2015年领料记录完整的项目物料小类采购数据作为测试集。由于配网输入数据具有标签复杂，类型众多的特点，因此首先需要对数据进行数据预处理，排除不符合业务逻辑的异常值，将原始数据转换成为采取哑变量方法进行展示的形式并作为随机森林模型的输入，以便随机森林模型可以更好地学习历史项目的有效特征 3 预测模型构建配网项目具有样本数量多，项目类型、标签复杂的特征。因此，采用具备处理高维数据能力的随机森林算法构建配网物资需求预测模型，同时随机森林模型在训练速度和避免过拟合方面也具有明显的优势。简单地说，随机森林是利用多棵决策树对样本进行预测的模型，它的结构，如图2所示。给定决策树的数量，每棵决策树按既定方法选取输入信息的子集作为样例进行学习，不剪枝地生长，直到满足停止生长规则并给出结果，最终集合所有单棵决策树结果做出判断并把信息传递给外界随机森林通过自助法重采样技术，从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合，然后根据自助样本集生成k个决策树组成随机森林。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于一个独立抽取的样品，其输出将会是所有决策树输出的平均值随机森林中每一棵决策树为二叉树，其生成遵循自顶向下的递归分裂原则，即从根节点开始对训练集进行划分。分裂过程中，按照最大信息增益率的原则选取特征，并不断分裂为左节点和右节点，直到满足分枝停止规则方才停止生长。为了精确地定义信息增益，先定义一个度量标准，称为熵（entropy），它表示任意样例的纯度（purity）： E