水用量数据预测模型建立和用户分类1概念.doc

下载文档 降价啦

1
0
约6.82千字
约 41页
2017-09-06 发布于湖北
举报
版权申诉
保障服务

水用量数据预测模型建立和用户分类1概念.doc

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习小组作业题目水用量数据预测模型建立和用户分类《水用量数据预测模型建立和用户分类》名称：水用量数据预测模型建立和用户分类简述：（1）基于居民用户历史水用量数据，解决以下问题：分析出居民用户的水用量的规律；对用户进行分类；找出其中不合理用水的居民用户；可根据规律预测用户未来一段时间的用水量。（2）基于大用户历史用水量数据，解决以下问题：分析出大用户的水用量规律；对用户进行分类；当规律不匹配时进行提醒；根据规律预测用户未来一段时间的用水量。 1、小用户数据预处理数据表中包含很多字段，删除字段可能出现故障，导致读有问题如水表读书为负值等一些问题（1）重复记录，的记录进行操作。）CXD_USAGE小于记录为（3）转换数据库中数据格式存储，为了方便对日期进行操作，故需要将时间转换为/MM/dd的格式其转换过程如下所示：（4）是否正确，这里KETTLE将当天CXD_NEW_READING与前一天CXD_NEW_READING求差，然后将差值与CXD_USAGE对比，如果他们差值较大，CXD_NEW_READING读书有误或CXD_USAGE，则进行校验操作其过程如下图所示：结果所示：）（）结果进行去除无值操作，后一天读差值，若差值删除该记录；当天读比前一天读书小，则说明读有问题该记录（6）每个用户的用水量之和、平均值。（7）每个用户周一到的平均值如下图所示：如下图所示（8）记录，将、均值、方差的的平均用水量合并到一个表中通过简单的SQL语句便可以完成， UPDATE?USER_VAL?A,?USER_WEEK?B????-?SET?A.AVG_SUN=B.AVG_WEEK?????-?WHERE?A.CST_ID=B.CST_ID?AND?B.WEEK=7; 如下图所示： K-means：k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。 K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为c个类别，算法描述如下：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。该算法的最大优势在于简洁和快速，综上所述，K-means对用户的用数量进行聚集。）Weka打开数据，下图可以看出大部分用户的用水是相差不大的，用户用水频率较高，达到8%，少数用户用水频率较低，用户不用水。）Cluster选项卡里SimpleKmeans，参数numCsters为4，并且忽略到，点击“tart”，结果。图中可以看出3中的用户用水较高，说明其用水是规律的，1用水频率较低，说明基本不用的，Cluster0一段时间用，一段时间不用的，Cluster2偶尔用一下的。聚类效果图如下图所示：（3）聚类分组结果如下图所示列举部分用户）： 1.3 用户用水规律分析中有CXD_USAGE为，每天较大的用户，由于是用户整体用水规律，所以这里正常用户的用水情况进行分析时间用户用水规律分析的重要因素，所以以周、年对用户进行分析。）原进行，取出符合的数据然后出，每周一到周七的平均用数量过程如下：如下图所示：）K=7，结果如图图中可以看出Cluster3每周用水量较大Cluster4每周用水量偏小。（4）抽取用户对每周用水量的均值进行分析，从图中可以看出，用户周六、周日用水量相对大周五用水量相对偏低。 1.4 用水预测每天用水预测上面聚类分析，发现Cluster3是比较规律的，所以选取Cluster3数据集作为样本如下：）数据（2）转换为时间序列）user2、user3时间图像如下图所示：）上面分析，整个曲线处于大致不变的水平，且随机变动在整个时间序列范围内也可以认为是大致不变的所以该序列可以大致被描述为一个相加模型，因此我们可以使用简单指数平滑法进行预测。我们采用R中的HoltWinters()函数，为了能够使用HoltWinters中的指数平滑，我们需要进行参数设置：beta=FALSE和gamma=FALSE,预测结果如下图：（5）三张图可以看出User1User2、U