基于数据挖掘客户关系管理设计与研究.docVIP

下载本文档

2
0
约4.37千字
约 5页
2017-08-04 发布于广东
举报
版权申诉

基于数据挖掘客户关系管理设计与研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于数据挖掘客户关系管理设计与研究.doc

　　基于数据挖掘客户关系管理设计与研究【摘要】以下是小编精心为您编辑整理的基于数据挖掘客户关系管理设计与研究，供您参考，我们会持续更新，请留意，更多详细内容请点击查看。 1 引言本课题研究的公司其客户的不断增加，为了减少公司的投入以及更有效的利用公司现有的人力资源，将所有客户适当分类势在必行。随着公司客户的不断增加，和客户相关的信息资料也不断增加，这就要求公司投入更多的人力和物力来整理这些庞杂信息资料，而且为了更有效的利用公司现有的人力资源，将所有客户适当分类也势在必行。很显然，如果仅仅依靠传统人工技术，这将是一项非常困难的工作。本文就是选择好的解决方法。通过公司的mis系统，可以搜集到关于客户的基本信息、客户近段时间内的访谈记录、客户的销售确认单(SO 单)、客户拥有的设备等信息资料。接下来的工作就是如何从这些信息资料中挖掘出公司所需要的知识。我们需要解决的问题如下： 1)用户的根本需要，即用户需要发现什么?2) 用户对现有数据中的哪些属性更加关注?3) 数据挖掘的目的是什么? 2 系统的概要设计 2.1设计目标需要是发明之母。对每个问题有了一个比较清晰的结论才可以进行以后的工作，才可以保证以后的工作的有用性。期望的结果如下： 1)用户需要对所有客户合理分类，为公司制定各种营销和服务活动打好基础; 2)用户对数据中客户的SO单、访谈记录数量等更加关注; 3)数据挖掘的目的是选择合适的分类算法将公司的客户合理分类。由上面的问题分析可以分析出用户的需求：用户已经有了一个业务数据库，而且积累了大量的数据，用户希望可以利用这些数据将客户合理分类，以便公司制定各种营销和服务活动，增加销售收入。 2.1数据预处理数据预处理技术可以改进数据的质量，对挖掘数据进行压缩、归约等处理，从而有助于提高其后的挖掘过程的精度和运行性能。数据预处理包括一些复杂的过程，一般包括数据清理、数据集成、数据变换、数据归约。 1)数据清理。数据清理要去除数据集中的噪声数据和无关数据，处理遗漏数据和清洗脏数据，取出空白数据域和知识背景上的白噪声，考虑时间顺序和数据变化等。主要包括重复数据处理和缺值数据处理，并完成一些数据类型的转换。论文参考。比如，数据库中大量存在null值，这将会影响我们最终的挖掘结果，怎样才能为该属性填上空缺的值呢?我们可以忽略该条记录，也可以使用最可能的值人工填写空缺值，或者使用一个全局常量(或该属性的平均值)填充空缺值。论文参考。 2)数据集成。数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理，解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突解决以及不一致数据的处理问题。比如，数据分析者或计算机如何才能确信一个数据库中的customer _id 和另一个数据库中的customer_number 指的是同一实体?通常，我们通过元数据(关于数据的数据)来解决这个问题，这种元数据可以帮助避免模式集成中的错误。 3)数据变换。数据变换主要是找到数据的特征表示，用维变换或转换方法减少有效变量的数目或找到数据的不变式，包括：规格化、归约、切换、旋转和投影等操作。比如，在数据库的客户信息表中并没有设置某个字段来记录客户的访谈记录情况(gt;=40 或20...40 或lt;=20)，通过SQL 语句也只是能得到该客户的访谈记录的具体数量，这里就必须进行数据变换，将属性数据离散化，以适应数据挖掘的需要。 4)数据归约。有些数据属性对发现任务是没有影响的，这些属性的加入会大大影响挖掘效率，甚至还可能导致挖掘结果的偏差。因此，有效的缩减数据是很必要的。 5)事实表：把所有的度量值合成到一张表中，这张表就是事实表，事实表中存放的是所有用户所关心的数据，分析时通过按不同的维度，查看、翻转、切片数据来得到关心的信息。 6)维度表：维度表存放了事实数据的描述信息，一般包括时间、地点等信息。 3 所选分类算法的研究 3.1决策树的生成本次数据挖掘的基本算法可以描述如下：首先确定所要生成的决策树的相关分类 C，如关键客户，主要客户，一般客户，潜在客户。树以代表训练样本的单个节点开始。如果样本都在属于 C，则该节点成为树叶，并标记该节点的概率权值为1。否则，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好的将样本分类的属性。该属性成为节点的测试或判定属性。对于测试属性的每个已知的值，创建一个分支，并据此划分样本。论文参考。算法使用同样的过程，递归的形成每个划分上的样本决策树。一旦一个属性出现在一个节点上，就不会在该分支再次出现。递归划分步骤当且仅当下列条件之一成立时停止： 1) 给定节点的所有样本都属于C或者都不属于C。此时当前节点成为叶子节点，并标记该节点的概率权值为1或0。 2) 有剩余属性可以用来进一步划