- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘客户关系管理设计与研究.doc
基于数据挖掘客户关系管理设计与研究
【摘要】以下是小编精心为您编辑整理的基于数据挖掘客户关系管理设计与研究,供您参考,我们会持续更新,请留意,更多详细内容请点击查看。
1 引言
本课题研究的公司其客户的不断增加,为了减少公司的投入以及更有效的利用公司现有的人力资源,将所有客户适当分类势在必行。随着公司客户的不断增加,和客户相关的信息资料也不断增加,这就要求公司投入更多的人力和物力来整理这些庞杂信息资料,而且为了更有效的利用公司现有的人力资源,将所有客户适当分类也势在必行。很显然,如果仅仅依靠传统人工技术,这将是一项非常困难的工作。本文就是选择好的解决方法。
通过公司的mis系统,可以搜集到关于客户的基本信息、客户近段时间内的访谈记录、客户的销售确认单(SO 单)、客户拥有的设备等信息资料。接下来的工作就是如何从这些信息资料中挖掘出公司所需要的知识。我们需要解决的问题如下:
1)用户的根本需要,即用户需要发现什么?2) 用户对现有数据中的哪些属性更加关注?3) 数据挖掘的目的是什么?
2 系统的概要设计
2.1设计目标
需要是发明之母。对每个问题有了一个比较清晰的结论才可以进行以后的工作,才可以保证以后的工作的有用性。期望的结果如下:
1)用户需要对所有客户合理分类,为公司制定各种营销和服务活动打好基础;
2)用户对数据中客户的SO单、访谈记录数量等更加关注;
3)数据挖掘的目的是选择合适的分类算法将公司的客户合理分类。
由上面的问题分析可以分析出用户的需求:用户已经有了一个业务数据库,而且积累了大量的数据,用户希望可以利用这些数据将客户合理分类,以便公司制定各种营销和服务活动,增加销售收入。
2.1数据预处理
数据预处理技术可以改进数据的质量,对挖掘数据进行压缩、归约等处理,从而有助于提高其后的挖掘过程的精度和运行性能。数据预处理包括一些复杂的过程,一般包括数据清理、数据集成、数据变换、数据归约。
1)数据清理。数据清理要去除数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,取出空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等。主要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。论文参考。比如,数据库中大量存在null值,这将会影响我们最终的挖掘结果,怎样才能为该属性填上空缺的值呢?我们可以忽略该条记录,也可以使用最可能的值人工填写空缺值,或者使用一个全局常量(或该属性的平均值)填充空缺值。论文参考。
2)数据集成。数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突解决以及不一致数据的处理问题。比如,数据分析者或计算机如何才能确信一个数据库中的customer _id 和另一个数据库中的customer_number 指的是同一实体?通常,我们通过元数据(关于数据的数据)来解决这个问题,这种元数据可以帮助避免模式集成中的错误。
3)数据变换。数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括:规格化、归约、切换、旋转和投影等操作。比如,在数据库的客户信息表中并没有设置某个字段来记录客户的访谈记录情况(gt;=40 或20...40 或lt;=20),通过SQL 语句也只是能得到该客户的访谈记录的具体数量,这里就必须进行数据变换,将属性数据离散化,以适应数据挖掘的需要。
4)数据归约。有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。因此,有效的缩减数据是很必要的。
5)事实表:把所有的度量值合成到一张表中,这张表就是事实表,事实表中存放的是所有用户所关心的数据,分析时通过按不同的维度,查看、翻转、切片数据来得到关心的信息。
6)维度表:维度表存放了事实数据的描述信息,一般包括时间、地点等信息。
3 所选分类算法的研究
3.1决策树的生成
本次数据挖掘的基本算法可以描述如下:
首先确定所要生成的决策树的相关分类 C,如关键客户,主要客户,一般客户,潜在客户。
树以代表训练样本的单个节点开始。
如果样本都在属于 C,则该节点成为树叶,并标记该节点的概率权值为1。
否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。该属性成为节点的测试或判定属性。
对于测试属性的每个已知的值,创建一个分支,并据此划分样本。论文参考。
算法使用同样的过程,递归的形成每个划分上的样本决策树。一旦一个属性出现在一个节点上,就不会在该分支再次出现。
递归划分步骤当且仅当下列条件之一成立时停止:
1) 给定节点的所有样本都属于C或者都不属于C。此时当前节点成为叶子节
点,并标记该节点的概率权值为1或0。
2) 有剩余属性可以用来进一步划
您可能关注的文档
- 在全县秋季林业建设动员大会上的讲话~文书.doc
- 在全县纪检监察工作座谈会上的讲话~文书.doc
- 在全县纪检监察干部培训班开班动员会上的讲话--文书.doc
- 在全县解放思想大讨论暨组织工作会议上的讲话~文书.doc
- 在全县解放思想大讨论活动总结表彰大会上的讲话~文书.doc
- 在全县青年干部座谈会上的讲话~文书.doc
- 在全县领导干部大会上的讲话:团结奋进 继往开来--文书.doc
- 在全国法院审判监督工作经验交流会上的发言--文书.doc
- 在全国财政反腐倡廉建设工作会议上的工作报告.doc
- 在全局保持共产党员先进性教育活动分析评议阶段动员会讲话(通用)~文书.doc
- 江苏苏州市文化广电和旅游局下属事业单位招聘高层次人才笔试备考题库及答案详解1套.docx
- 国家发展和改革委员会一带一路建设促进中心2024年面向应届生公开招聘工作人员笔试模拟试题及答案详解1.docx
- 中国民用航空局信息中心2025年公开招聘人员笔试模拟试题带答案详解.docx
- 云南省玉溪市峨山县教育体育系统招聘2025年毕业生4人笔试模拟试题含答案详解.docx
- 2025年生态环境部淮河流域生态环境监督管理局生态环境监测与科学研究中心招聘笔试模拟试题及答案详解1.docx
- 沧州职业技术学院单招《职业适应性测试》每日一练试卷及参考答案详解【实用】.docx
- 广东交通职业技术学院单招《职业适应性测试》测试卷含答案详解(综合卷).docx
- 2025上半年四川省第四地质大队招聘15人笔试模拟试题含答案详解.docx
- 国家药品监督管理局特殊药品检查中心2024年度公开招聘笔试模拟试题及答案详解1套.docx
- 2025年辽宁省委党校(辽宁行政学院、辽宁省社会主义学院)招聘17人笔试模拟试题及参考答案详解.docx
最近下载
- Unit1《实用商务英语写作教程》作者董晓波—教学课件.ppt VIP
- 中西医结合诊所规章制度大全.docx VIP
- (2025年)抗菌药物临床应用知识培训考试题库(附答案).docx VIP
- DLT 5044-2014 电力工程直流电源系统设计技术规程.docx
- 《联合国教科文:教师人工智能能力框架》--中文版.docx
- OpenHarmony应用开发认证考试题库大全-中(多选题汇总).docx
- 山东省济南市历城区2023-2024学年四年级下学期期末考试数学试题 附答案.pdf VIP
- 机封培训课件.pptx VIP
- 2023年7月黑龙江省普通高中学业水平合格性考试物理真题试卷含答案.docx VIP
- 中外新闻传播史考题及答案.pdf VIP
文档评论(0)