- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗糙集理论的客户分类规则挖掘模型
第20卷第1O期
2004年10月
甘肃科技
GansuScienceandTechnology
V_D2.20N.1O
Oct.2004
基于粗糙集理论的客户分类规则挖掘模型
刘嘉,梁勇勇
(1.兰州理工大学,甘肃兰州730050;2.兰州烟草公司,甘肃兰州730000)
摘要:本文构建了一个基于粗糙集理论的客户分类规则挖掘模型,通过该模型对烟草公司客户数
据的分析,挖掘出了隐含在数据中的分类规则,找到了客户分类的特征描述.
关键词:粗糙集理论;数据挖掘;客户分类规则
中图分类号:TP183
随着我国加入WTO,烟草行业对卷烟零售客
户的服务质量亟待加强.如何将有限的服务资源有
针对性,有重点的为客户提供更加优质的服务,就必
须对庞大的零售客户群进行分类管理和服务.分类
管理主要是通过对卷烟零售客户本身的大量的信息
(如主营业态,商业环境,营业面积等)进行综合评
估,根据评估结果划分客户级别.然后有针对性地
服务,同时还可以有效地监控各个市场的整体运营
情况,防止假烟及走私烟流入市场.
粗糙集理论…1建立在分类机制的基础上,从
1982年Pawlak提出粗糙集模型至今,它已经成为
知识发现的一个重要的工具.这种方法通过对集合
进行等价类的划分,确定问题的近似域,从而对含糊
性和不确定性信息进行分析和推理,揭示出数据间
隐含的知识和规则.本文利用粗糙集理论,结合实
际情况建立了一个客户分类规则的挖掘模型,运用
该模型可准确地划分客户级别,从而提高企业的经
营效率.
1经典粗糙集理论
我们称S=lt;U,A,Vgt;为一个信息系统,其
中U={u1,u2,…,un}是所有对象的集合,称为论
域,A是属性的非空,有限集合,并且A=CUD,C
称为条件属性,D称为决策属性.任意对应一个函
数a:U—Va,其中Va是A中某个属性a的值域.
在一个信息系统中并不是所有的对象都可以用
属性区分开来,很多情况下,不同的对象拥有相同的
属性值.因此,属性的任意子集都可将论域U分为
若干等价类,粗糙集模型正是建立在这种等价关系
上.令BA,我们定义B上的不可分辨关系(indis—
cerniilityrelation):IND(B)={(X,y)∈u×U:a∈
B,a(x)=a(y)}
式中如果对aEB都满足a(x)=a(y),则称对
于二元等价关系IND(B),X和Y是不可分辨的.根
据这个二元关系IND(B),可以将论域进行分类,形
成n个等价类,并用U/IND(B)表示.粗糙集理论
的基础是根据已有的知识R将问题的论域U进行
划分,然后利用划分后的结果可定义出两个特殊的
集合:上近似集R一(x)和下近似集R一(x).设
XU,有:
R一(x)={Y∈U/IND(R):Yx}
R一(x)={Y∈U/IND(R):YX}
并且定义POS(X)=R一(x)为x的正域;NEG
(x):U—POS(x)为x的负域;BNR(x)=R一(x)
一
R一(x)为x的边界区域.直观地看,x的正域是
对于知识R,U中所有一定能归入x的元素的集
合;x的负域是对于知识R,U中不能归入x的元素
的集合;BNR(x)是对于知识R,既不能确定是否归
入x的元素的集合.
在给定条件属性的等价分类xi的条件下,决策
属性分类Y的条件概率可表示为
哪/xi=
其中,card.为等价类中对象的基数.这个概率
值也称为Y对xi的粗糙隶属度.
2可变精度粗糙集理论
由于经典粗糙集模型是建立在精确的划分基础
上的,即只有包含和不包含,它对不确定性概念
的边界区域划分过于简单,缺乏对噪音数据的适应
能力.Ziarko将经典粗糙集理论扩展为可变精度粗
糙集(vPRS)理论2,从而更便于处理不完整和模
甘肃科技第20卷
糊数据.
在VPRS中允许存在一定的分类误差B(B∈
[0,5,1]),用来表示决策属性等价分类和条件属性
等价分类交集中对象的基数与该条件属性等价分类
中对象基数的比值.当B=1时可变精度粗糙集模
型就转变为经典粗糙集模型.在VPRS中也定义B
正域,B负域和B边界区域,具体如下:
POSc(x)=U{YEU/IND(R):≥}
NEGc(x)=U{YEU/IND(R):≤1一}
BNRc(x)=U{YEU/IND(R):1一plt;B}
其中,POSc(x)表示根据R将U中的元素误分
类到x中的概率不超过B的等价类的集合;NEGc
(x)表示根据R将u中的元素误分类到x中的概
率超过1一B的等价类的集合;BNRC(x)则是两者
之差.
对于整个论域来说并非所有的条件属性都对Y
的分类有用,为此我们要消除掉冗余的属性,这就是
B约简.定义为对c∈C,如果满足POSC(x)=
POSC一{c}(x),则c是冗余属性,且C一{c}为
原创力文档


文档评论(0)