数据挖掘与客户关系管理.docxVIP

下载本文档

0
0
约5.08千字
约 5页
2023-09-01 发布于广东
举报
版权申诉

数据挖掘与客户关系管理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘与客户关系管理 0 数据挖掘技术在现代高新技术中的应用公司的快速发展导致了大量的客户数据。这些客户的基本数据、购买记录和客户反馈等环节的大量信息也导致信息爆炸。现代社会的竞争趋势决定了对这些数据深入分析、挖掘隐含在这些数据中的有用信息, 是帮助企业更好地管理客户关系、实现CRM的重要手段。由于积累的数据量大, 数据量增加的速度又非常迅速, 以至于许多企业对于这些数据的利用还只是停留在基础的浏览、检索、查询、整理等方面, 而实际利用受限, 无法将其转化为有用的知识。面对纷繁的客户信息, 如何有效地管理数据, 利用数据资源进行深层次的分析, 找出其内在的规律和知识, 为企业提供决策支持, 已是企业亟待解决的问题, 数据挖掘 (Data Mining, 简称DM) 技术的运用则很好地解决这个问题。目前在CRM中进行有效数据挖掘的研究主要集中在以下几个方面: (1) 方法研究:数据挖掘的知识类型、多个抽象层的交互知识挖掘、数据挖掘查询语言以及并行挖掘、分布式挖掘和增量挖掘等。 (2) 性能研究:数据挖掘算法的有效性和可伸缩性、模式的评估和兴趣度度量、挖掘应用的效益等方面。 (3) 数据研究:数据库类型的多样性、复杂数据类型处理、噪声数据和缺失数据处理, 以及异种数据库和Web上的数据挖掘等。 (4) 用户交互研究:数据挖掘结果的表示和可视化, 领域知识的运用, 挖掘过程的简化和可理解性等。关联规则算法 (Association rules) 一直是数据挖掘领域的重要研究课题, 它的目标是确定数据中不同领域之间的联系, 即寻找数据库中不同项集之间的关系。通过关联分析获得反应客户购买行为模式, 能够帮助企业制定更适合消费者的营销策略。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题, 广泛应用于商业领域, 它是数据挖掘中最成熟、最重要、最活跃的研究内容。数据挖掘是提取有用信息的“数据产生”过程, 其产生的隐含知识和规则可以为企业经营决策、市场策划提供依据, 因此数据挖掘技术在CRM中的应用必将越来越广泛。随着数据挖掘技术研究的进一步发展和深化, CRM会有更为广泛的应用前景和市场价值, 这对增强企业的核心竞争力将起到至关重要的作用。 1 关联规则的定义定义1:关联规则挖掘的数据集记为D (一般为事务数据库) , D={t1, t2, …，tk, …, tn}, tk={i1, i2, …, im, …, ip}, tk(k=1, 2, …, n) 称为事务im(m=1, 2, …, p) 称为项目。定义2:设I={i1, i2, …, im, }是D中全体项目组成的集合, I的任何子集X称为D中的项目集, |X|=k称集合X为k项目集。设和X分别为D中的事务和项目集, 如果X, 则称事务包含项目集X。每一个事务都有一个唯一的标识符, 称为TID。事务是数据集D的组成元素 (类似于关系数据库中的记录或元组) , 而项目是为发现关联规则而规定的项目组合。事务与项目集的包含关系表明对该事务来说, 此项目集中的各个项目是相互关联的。定义3:如果项集的支持度大于用户给定的最小支持度 (minsup) , 则称该项集为频繁项集, 或称大项集。在频繁项集中挑选出所有不被其它元素包含的频繁项集称为最大频繁项集或最大项目集。定义4:设XY, YI, 且X∩Y=Φ, 如果事务数据库D有s%的事物包含X∪Y, 则称关联规则X?Y的支持度为s%, 记为support (X?Y) =s%。即Support (I1) =||{t D|t}||/||D|| 关联规则X?Y的支持度是一个概率值P (X∪Y) , 表示X∪Y在事物数据库中的出现的次数占D中所有事物的百分比。支持度说明了规则在所有事物中的代表性, 代表性越大, 关联规则越重要, 应用越广泛。支持度是关联规则重要性的一个衡量标准。定义5:设XY, YI, 且X∩Y=Φ, 事务数据库D中包含X∪Y的事务数于包含X的事务数的比值称为关联规则X?Y的信任度, 也称置信度或可信度, 记为confindence (X?Y) 。为了发现更有意义的关联规则, 需要两个给定的阈值:最小支持度 (minsup) 和最小可信度 (minconf) 。即Confidence (X Y) =support (X∪Y) /support (X) =P (Y|X) 。可信度就是指在出现了项集X的事物T中, 项集Y也同时出现的概率有多大。可信度是关联规则的准确度的一个衡量标准。支持度和可信度是衡量关联规则的两个重要概念。如果不考虑关联规则的支持度和可信度, 那么食物数据库中存在无穷多的关联规则。通常来讲, 用户感兴趣、有用的关联规则是支持度和置信度都较高的关联规则。 2 典型多因素算