ETL工具在电信呼叫中心应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL工具在电信呼叫中心应用

ETL工具在电信呼叫中心应用   摘要本论文首先研究了数据挖掘的相关概念,阐述了日前ETL的所需要和需要解决的问题及一些现行的方法,同时还阐述了工作流系统的概念和并对其体系结构进行分析。经过分析设计,实现了基于工作流引擎的ETL工具。最后,通过在电信呼叫中心系统的实际案例,对该工具进行了测试和评估,实际表明该工具能有效实现数据的抽取、转换和装载。   关键词数据挖掘数据仓库ETL   中图分类号:TN91文献标识码:A      随着企业信息化的发展,不同的企业在不同时期采用的信息技术都可能不一样,整个企业的信息系统之间很难实现数据的共享。在这种环境下数据挖掘技术的目的就是从大量数据中提取出可信、新颖、有效并能被入理解的信息。而数据预处理通过对原始数据抽取、转换,最终把数据装载目标数据库或数据仓库中,是数据挖掘中的丁个重要过程。我们通常称之为ETL过程。   因为数据存储在不同的系统中千差万别,大多数的系统都通过手工编码的方式来实现。这样的ETL过程不具通用性,而且开发周期比较长。针对这种情况,本论文提出的基于工作流引擎的ETL工具的解决方案。   这种基于工作流引擎的ETL工具的解决方案,把整个ETL过程看成是多个简单的ETL活动有序执行来完成的。区别于其他引擎的ETL工作,这些ETL活动可以被串行、并发、或同步执行。利用图形化工作流模型的能很好地描述这些活动之间的关系。而活动的内容则可以通过数据转换元数据模型进行描述。   1 呼叫中心介绍   呼叫中心(callcenter)系统是通过电话系统连接到信息数据库,并由IVR自动语音或人工作玺接受用户各种服务请求,比如信息查询、业务受理、服务申告等。其传统的介入媒质时至语音电话,随着技术的进步,介入媒体的形式扩展到视频、电子邮件、短信等形式,逐步发展成一种“信息中心”。呼叫中心系统一般由ACD(自动呼叫分配)交换机、IVR(交互式语音应答)系统、CTI(计算机电话集成)系统、数据库系统、呼叫管理系统、业务处理系统以及座席(业务代表)等组成。   呼叫中心所有的呼叫记录可以有交换机提供,也可以有CTI服务器提供。在本应用中采用CTI服务器提供的数据源进行分析。其部署结构图如下:      图1.1呼叫中心数据处理物理部署图   2 数据源描述   CTI数据源主要为每个终端的呼叫日志、ACD排队日至几话务员操作日至,都是以文本文件的方式保存在CTI-SERVER服务器上。所有的日至文件在CTI服务器的硬盘上只保存40天。每天一个目录,目录文件名为CDRYYYYMMDD;每个目录下存放日至文件,每半个小时一个文件,文件格式为CDRHHMI,其中HH为24小时制,MI为00或30。只能保存40天。CDR日志中,每条记录以回车符‘\n‘结束,各字段之间用“;”分隔。具体每个字段的意义及大小如下表示(其中时间格式统一为YYYY-MM-DDHH24:MI:SS)。数据采集程序定期从CTI服务器通过FTP提取相关文件进行处理。   3 目标数据描述   呼叫中心业务的报表主要包含四大类:话务员工作量分析统计报表、话务员行为分析统计报表、话务量分析统计报表、话务行为分析统计报表(如IAR流程分析)、系统状态分析统计报表。所先从CTI服务器取得得数据是详细的日志数据,这些数据存放在在ORACLE9i的数据库中,如图1.2所示。   终端呼叫日志信息是指明每个终端在呼叫过程中参与的记录信息,假如一各终端在同一个呼叫中有多次参与,那么就会有多条记录存在。由于呼叫量非常具大,因此,业务系统在设计时设计为每个月份一张表进行存储。   呼叫排队日志信息是指在呼叫中终端请求人工服务而排队的记录,如果在同一个终端上对于同一个呼叫中有参与多次排队,那么就有多条记录存在,由于请求人工服务的数量每天大约在5万左右,在设计时,业务系统中只设计了一张表进行存储。   话务员操作日志详情表,记录操作员日志,系统中只有一张。            图1.2目标数据――详情日志表   4 数据抽取和转换流程图   为了实现数据的抽取,我们先根据上述数据源定义数据记录的属性,然后设计抽取过程模型,图1.3就是使用在呼叫中心抽取数据的过程模型。   根据图中过程模型及ETL过程描述模型定义,可以理解活动1和数据转换活动1串行执行,活动2和数据转换活动2串行执行,活动3和数据转换活动3串行执行.活动1、活动2及活动3可以并行执行。当数据转换活动1、数据转换活动2、数据转换活动3执行完成后,才能执行活动4.起始节点、终止节点、同步并发节点及条件孤在4.3.1章节中已经详细描述。      图1.3呼叫中心ETL过程模型   以下主要描述一下各个活动的具体内容。   (1

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档