- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机 器 学 习 小 组 作 业
题目水用量数据预测模型建立和用户分类
《水用量数据预测模型建立和用户分类》
名称:水用量数据预测模型建立和用户分类
简述:(1)基于居民用户历史水用量数据,解决以下问题:分析出居民用户的水用量的规律;对用户进行分类;找出其中不合理用水的居民用户;可根据规律预测用户未来一段时间的用水量。(2)基于大用户历史用水量数据,解决以下问题:分析出大用户的水用量规律;对用户进行分类;当规律不匹配时进行提醒;根据规律预测用户未来一段时间的用水量。
1、小用户数据
预处理
数据表中包含很多字段,删除字段可能出现故障,导致读有问题如水表读书为负值等一些问题
(1)重复记录,的记录进行操作。)CXD_USAGE小于记录为
(3)转换数据库中数据格式存储,为了方便对日期进行操作,故需要将时间转换为/MM/dd的格式其转换过程如下所示:
(4)是否正确,这里KETTLE将当天CXD_NEW_READING与前一天CXD_NEW_READING求差,然后将差值与CXD_USAGE对比,如果他们差值较大,CXD_NEW_READING读书有误或CXD_USAGE,则进行校验操作其过程如下图所示:
结果所示:
)()结果进行去除无值操作,后一天读差值,若差值删除该记录;当天读比前一天读书小,则说明读有问题该记录
(6)每个用户的用水量之和、平均值。
(7)每个用户周一到的平均值如下图所示:
如下图所示
(8)记录,将、均值、方差的的平均用水量合并到一个表中通过简单的SQL语句便可以完成,
UPDATE?USER_VAL?A,?USER_WEEK?B????-?SET?A.AVG_SUN=B.AVG_WEEK?????-?WHERE?A.CST_ID=B.CST_ID?AND?B.WEEK=7;
如下图所示:
K-means:k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
假设要把样本集分为c个类别,算法描述如下:
(1)适当选择c个类的初始中心;
(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;
(3)利用均值等方法更新该类的中心值;
(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。
该算法的最大优势在于简洁和快速,综上所述,K-means对用户的用数量进行聚集。
)Weka打开数据,下图可以看出大部分用户的用水是相差不大的,用户用水频率较高,达到8%,少数用户用水频率较低,用户不用水。
)Cluster选项卡里SimpleKmeans,参数numCsters为4,并且忽略到,点击“tart”,结果。图中可以看出3中的用户用水较高,说明其用水是规律的,1用水频率较低,说明基本不用的,Cluster0一段时间用,一段时间不用的,Cluster2偶尔用一下的。
聚类效果图如下图所示:
(3)聚类分组结果如下图所示列举部分用户):
1.3 用户用水规律分析
中有CXD_USAGE为,每天较大的用户,由于是用户整体用水规律,所以这里正常用户的用水情况进行分析时间用户用水规律分析的重要因素,所以以周、年对用户进行分析。)原进行,取出符合的数据然后出,每周一到周七的平均用数量过程如下:
如下图所示:
)K=7,结果如图图中可以看出Cluster3每周用水量较大Cluster4每周用水量偏小。
(4)抽取用户对每周用水量的均值进行分析,从图中可以看出,用户周六、周日用水量相对大周五用水量相对偏低。
1.4 用水预测
每天用水预测上面聚类分析,发现Cluster3是比较规律的,所以选取Cluster3数据集作为样本如下:
)数据
(2)转换为时间序列
)user2、user3时间图像如下图所示:
)上面分析,整个曲线处于大致不变的水平,且随机变动在整个时间序列范围内也可以认为是大致不变的所以该序列可以大致被描述为一个相加模型,因此我们可以使用简单指数平滑法进行预测。我们采用R中的HoltWinters()函数,为了能够使用HoltWinters中的指数平滑,我们需要进行参数设置:beta=FALSE和gamma=FALSE,预测结果如下图:
(5)三张图可以看出User1User2、U
您可能关注的文档
- 数字PID温度控制器设计与实现概念.doc
- 数字XX城市数据中心设计方案概念.doc
- 算法设计与大作业答案概念.doc
- 数字IP网络广播系统说明书概念.doc
- 数值作业概念.doc
- 数值实验二概念.doc
- 数值计算方法实验指导(Matlab版)概念.doc
- 塑压复习题概念.doc
- 数值计算方法概念.doc
- 酸轧技术规程概念.doc
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)