- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析电网设备台帐数据质量的现状
浅析电网设备台帐数据质量的现状
摘要:电网设备台帐数据是电网生产运营分析必不可少的一部分,而且数据质量水平直接影响了数据分析结果的准确度和对策的合理性。现以广东电网有限责任公司中山供电局的设备台账数据质量为例来研究,通过总结分析设备台帐数据的质量现状,探究影响数据质量准确性的技术、管理等原因,比较不同的检查方法并重点分析基于数据分析的检查方法,利用数据挖掘技术对文本信息进行文本矫正。并提出能针??具体的数据质量来改善管理措施和技术措施,为提升信息系统数据质量提供了支撑。
关键词:数据质量现状;准确性;检查方法;文本矫正
中图分类号:TP311.13文献标识码:A 文章编号:1674-098X(2017)12(a)-0000-00
虽然每年网、省公司都会投资大量的资金人力来提升数据质量,但是目前的数据准确性依旧不够。因为目前数据质量提升的手段相对比较单一,并且都是通过已经制定好的检查系统的规则或者算法来进行检查,而这种制定好的规则更多是针对填写的规范性或者结构性问题来筛选,比如判断必填项是否填写、参数范围是否在枚举范围内等,这种检查规则并不能检查出数据准确性问题,另外检查规则的涉及范围十分有限,所以数据质量的提升达不到理想效果。
一、设备台帐数据质量现状
近几年来,信息系统不断完善提高,但还是存在数据缺失,数据质量准确性低下等问题。目前广东电网有限责任公司中山供电局设备台账数据质量的主要问题是数据准确性差,数据不完整,包括部分设备台账缺少数据,设备参数不准确及设备类别不准确等问题。设备参数不准确包括馈线长度不合理、生产厂家不合理,设备型号不准确,变压器额定电流不准确等;设备类别不准确具体包括开关类型不准确,配变类别不准确等问题。这些问题会影响账、卡、物的一致,比如不能有效支持业务应用,不能满足数据分析应用要求,同时不能有效支持基于台账数据质量的分析应用,不能很好地发挥数据价值。
二、设备台帐数据质量的检查方法
2.1传统检查方法
传统的检查方法就是基于已设定的规则检查,由业务专家梳理规则,系统固化规则,主要是检查必填项的填写和枚举值的参数范围。
传统检查方法很难检查出数据准确性问题,比如某些字段的筛选要求不够严谨,规则检测的数据基本全部通过,但实际有效的数据仍存在数据精准度不高等问题。如主变容量,按照规则只要填下下面任何一个都算正确,但实际上,不同电压等级变压器取值会有区别,如500kV变压器容量不可能只有800kV,110kV变压器容量也不会是1000000kV。另外杆塔档距要求是大于0的数字就行,但实际上还是有一个合理范围,与杆塔高度等都有关系。
2.2.基于数据分析的检查方法
这一种检查方法是采用数据挖掘技术,根据数据的分布特点,建立数据分析模型,进行数据质量的自识别,重点发现数据的准确性问题。由于主配网设备台账涉及三千多个设备类别,共计五千多个技术参数,无法对每一个参数单独建立分析模型。本方案总体思路是开发一套数据质量治理组建,针对数值型参数采用离群点检测组件,对于文本型参数采用文本矫正组件。
2.2.1杆塔呼称高、全高分析
2.2.1.1截尾方法
从上图可以明显看出,图中存在几个异常点,这些点与多数值比较极大,采用截尾方法处理,按照从小到大排序,截取99%以内的数据,剩下1%的数据为疑似可能值,将数据标记。
2.2.1.2基于密度的聚类
根据业务知识可知呼称高和全高存在一定的相关性,可能存在呼称高和全高在一定均在正常范围内,而呼称高和全高差距较大。利用基于密度的聚类实现异常点的检测。
3.文本矫正的样例分析
文本矫正主要是利用数据挖掘技术,建立标准库,通过文本挖掘计算矫正文本和标准库中的文本信息的相似度,进一步矫正文本信息,规范文本信息的填写。如设备生产厂家、型号等字段可采用此种方法进行检测,具体见样例分析中的文本矫正。
3.1 设备厂家文本矫正整体思路
① 首先建立标准厂家库,标准厂家库主要从数据库中提取和业务人员整理。
② 对历史厂家字段(或新输入厂家字段),利用文本挖掘手段在标准厂家库中匹配搜索。
③ 将标准中厂家名称推荐给用户。
3.2样例说明
四、提高设备台账数据质量的建议和措施
由分析现有的数据质量现状得出,提出以同时加强管理和技术手段的方式来保证数据的准确性。具体措施如下:
4.1建立设备台账管理制度
按月设定业务管理部门的数据考核标准,完善登记使用系统,提高使用者的责任心,确保每个部门都能执行设备台账管理制度。建立数据审核管理制度,记录每一个有问题的数据,具体到时间、人员、缺陷问题描述等。定期检查数据的消缺率和及时率,做到时刻监督。并且
您可能关注的文档
最近下载
- 第6课 推动形成全面对外开放新局面.pptx VIP
- 电规总院解析2018中国能源发展情况.PDF
- 2023届高考模拟作文“《山月记》我深怕自己并非美玉”导写及范文.docx VIP
- 冰淇淋本部冷冻饮品生产工艺作业指.pdf VIP
- GB_T 14598.1871-2024 量度继电器和保护装置 第187-1部分:差动保护的功能要求 电动机、发电机和变压器比率制动差动保护和差动速断保护.pdf VIP
- 七年级数学动点题50道.doc VIP
- “多测合一”收费指导标准(示范文本) .pdf VIP
- 煤矿采掘失调原因分析及对策探讨.doc VIP
- jtge20-2011公路工程沥青及沥青混合料试验规程.pdf VIP
- 中国的文人与士大夫文化传统.pptx VIP
原创力文档


文档评论(0)