- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
通信网管数据分析和应用
通信网管数据分析和应用
摘 要:随着我国移动通信的迅猛发展,设备品种逐步增多,容量迅速增大,网管信息化的应用,积累了海量数据,本文结合自己在实际网管数据分析与应用中的经验,针对数据采集与整理、数据存储与查询、数据挖据三个过程积累的经验与大家分享。
关键词:网管数据;数据挖掘;物化视图
1 引言
随着我国移动通信的迅猛发展,设备品种逐步增多,容量迅速增大,网管信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。因此如何应用这量信息,给信息化工作者提出了挑战,我作为一名移动行业信息化工作者,结合自己在实际网管数据分析与应用中的经验,主要在数据采集与整理、数据存储与查询、数据挖掘三方面与大家探讨一下。
2 数据采集与整理
2.1 文本格式FTP传输
网管系统在每天定时将前一天的数据文件上传到指定的FTP服务器。数据文件为后缀TXT的文本文件,指标之间的间隔符为“|”,指标按照第三节模板中定义的顺序排列,一条记录为一行。因为网管数据往往较大,为了提高传输速率及节省空间,建议将数据进行压缩处理。
2.2 数据按接口规范导入数据库
应用程序定时将网管数据解压缩,通过XML配置文件制定数据导入的规范,如下:
配置文件中规定了读取字段位置及存入数据库的字段名称,同时check中制定了数据的验证规则。如rang min=“0” max=“22”表示取值范围为0―22,如果超出该范围的数据则直接丢弃。
2.3 数据处理采用存储过程
存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给出参数来执行它。他有如下优点:
⑴提高数据库执行效率。使用SQL接口更新数据库,如果更新复杂而频繁,则需要频繁得连接数据库。
⑵提高安全性。存储过程作为对象存储在数据库中,可以对其分配权限。
⑶可复用性。
3 数据存储与查询
网管数据往往是海量的,每一统计数据的一天数据都能轻易达到千万级,因此在存储过程中要重复利用数据的技术性能。在我们的实践过程中主要应用了oracle数据库。下面简单介绍我们主要采用的技术手段。
3.1 表分区
区致力于解决支持极大表和索引的关键问题。它采用他们分解成较小和易于管理的称为分区的片(piece)的方法。一旦分区被定义,SQL语句就可以访问的操作某一个分区而不是整个表,因而提高管理的效率。分区对于数据仓库应用程序非常有效,因为他们常常存储和分析巨量的历史数据。
⑴增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;
⑵维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;
⑶均衡I/O:可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能;
⑷改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。
如我们可以按时间字段对导入数据进行分区,网管数据较大,一般一个月就需要一个分区。
3.2 索引技术
在关系数据库中,索引是一种与表有关的数据库结构,它可以使对应于表的SQL语句执行得更快。但对于现在的各种大型数据库来说,索引可以大大提高数据库的性能。有两种类型的分区索引,全局索引和本地索引,使用本地索引,不需要指定分区范围因为索引对于表而言是本地的,当本地索引创建时,Oracle会自动为表中的每个分区创建独立的索引分区。
3.3 物化视图
物化视图是包括一个查询结果的数据库对像,它是远程数据的的本地副本,或者用来生成基于数据表求和的汇总表。物化视图存储基于远程表的数据,也可以称为快照。使用物化视图可以实现视图的所有功能,而物化视图确不是在使用时才读取,大大提高了读取速度,特别适用抽取大数据量表某些信息以及数据链连接表使用。
4 数据挖掘
4.1 利用最小二乘法实现数据的一元线性回归
最小二乘法可以用来处理一组数据,可以从一组测定的数据中寻求变量之间的依赖关系,这种函数关系称为经验公式。能够寻求x与y之间近似成线性关系时的经验公式。假定实验测得变量之间的n个数据(x1,y1),(x2,y2),…,(xn,yn),则在xОy平面上,可以得到n个点Pi(xi,yi)(i=1,2,…n),考虑函数y=ax+b,其中a和b是待定常数。如果Pi(i=1,2,…n)在一直线上,可以认为变量之间的关系为y=ax+b。但一般说来,这些点不可能在同一直线上
文档评论(0)