- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电信账单——数据挖掘课题 项目概述 源数据 数据预处理 数据转换和处理 数据模型演算 知识发现 项目概述 1.1 项目目的 1.2 项目功能 1.3 项目步骤 1.4 工具介绍 1.5 时间安排 1.1 项目目的 根据上海市电信公司帐务系统提供的用户月账单信息,分析电信公司各类业务的发展情况。 在分析过程中使用数据挖掘课程中涉及的理论知识以及关键技术和思想,比如聚类分析、OLAP、决策树等方法。 项目概述 项目概述 结合实际数据挖掘工具进行数据的提炼、整理从而得到预期的分析结果。 根据分析结果,对上海电信各类产品的推广预测出特定客户群。 项目概述 1.2 项目功能 按区域和时间对普通用户的电信帐单数据进行挖掘,区域包括(区局、分局),时间包括(年、月)。挖掘的数据包括本地通话次数、本地通话时长、本地话费、长途通话次数;长途通话时长,长途话费;宽带类型(分ADSL、FTTB+LAN,VDSL或其它类型四种),宽带话费;小灵通通话次数、小灵通通话时长、小灵通话费等项目。 项目概述 聚类分析:以本地、长途、宽带、小灵通等业务种类为一个维度,区域为第二个维度: 统计语音ARP值,用户数,收入 统计长途ARP值,用户数,收入 统计宽带ARP值,用户数 ,收入 统计小灵通ARP值,用户数,收入等 可根据维度进行下卷和下挖操作 在此基础上进行用户分类(高/中/低) 关联分析:用户电话达到多少ARP值后开始装宽带(计算信任度和支持度各多少)。 趋势分析:客户流失率,增长趋势等 1.3 项目步骤 选取典型范围的产品聚类; 定义数据堆积维度和衡量值; 确定数据挖掘的理论方法(聚类、决策树); 学会应用Sql Server 2000 pro 和Analysis manager的工具; 设计定义挖掘模型和算法; 预测结果测试。 项目概述 1.3 项目步骤 项目概述 项目概述 1.4工具介绍 一般而言,目前市场上这些数据挖掘工具又可分成两类——企业型工具以及小型工具。 企 业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/服务器结构。它通常可以直接连接一些 复杂的数据管理系统(不像普通文本文件),并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问 题。企业数据挖掘工具的实例有IBM的Intelligent Miner和SAS Enterprise Miner,SPSS Clementine等。 小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。 项目概述 本次项目选择的工具 优点 掌握快,易上手,适合初学者和本次项目 支持多种数据库,支持ODBC接口 成本低,SQL Server2000自带的Service Pack包 缺点 只能做很简单的挖掘工作,过于傻瓜 只支持基于维度的数据挖掘 只支持决策树 1.5 时间安排 4月16日(第八周)开题预备讨论会,确定课题研究内容和方向,并明确各自重点和分工 4月23日(第九周)-5月7日(第十一周)课题研究制作,进行模拟预测等,并完成课题报告初稿 5月21日(第十三周)报告定稿,答辩 项目概述 数据源 由电信帐务中心提供 由于牵涉保密问题,因此数据为测试数据,只用于项目开发和测试所用 表结构 Bill_fast(帐单事实表) 表结构 产品表(维度) 区域表(维度,2级) 时间表(维度,2级) 表关联关系 尽量简化表的关联关系为雪花状结构,利于数据存储和挖掘 数据整理和倒入数据库 根据要求将数据规范化,倒入ACCESS数据库中,去除冗余和不规范的数据 该步骤已经完成 总共建立计费数据时事实表,数据总量为132762条 建立从2003-2004年的时间表 建立区局-分局的对应关系表,总共13个区局和180个分局 建立产品表(普通电话,长途电话,小灵通和宽带) 事实表示例 启动Analysis Server 创建新的项目 建立与Access数据库连接 采用ODBC方式连接,Windows标准 可适合一切数据库,如ORACLE,SQL,SYBASE,DB2等 建立数据维度 建立时间/区域/产品三个维度,有些维度分两级 建立数据多维存储 例:建立一个用户数量的多维存储结构 建立数据多维存储 建立数据多维存储 建立数据多维存储 生成的存储文件 分析 例:分析用户数量变化情况 分析区局的收入变化情况 分析(功能) 所有操作均可深化和浅化,即上卷和下挖 所有的维度均可以拖拉到相关(水平或者垂
您可能关注的文档
最近下载
- 低表面张力物系在规整填料塔中的传质性能研究开发.pdf VIP
- DB14T 1932-2019政务信息资源数据共享交换平台(外网)目录编制规范.docx VIP
- 山东省济南市2024-2025学年高三上学期1月期末考试政治试题.docx VIP
- 分饼说课课件五年级上册数学北师大版.pptx
- 烟草专卖管理师(2级).pdf VIP
- 跨文化沟通之法国 .pptx VIP
- 食品中西地那非、他达拉非等化合物的测定.docx
- 电工基础(第3版)王兆奇课后习题答案.pdf
- 20181115液空美国甲醇大会交流lars_axelsen _dynea_formaldehyde_outlook.pdf VIP
- 《爱的5个能力.doc VIP
原创力文档


文档评论(0)