- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于融合数据挖掘技术烟草商业营销系统
基于融合数据挖掘技术烟草商业营销系统
摘要:融合聚类挖掘和关联规则分析算法,首先采用主成分分析方法进行特征选择,获取对算法有用的属性集合;然后以营销目标为约束条件,对商户进行聚类,获取营销目标下的不同商户分类群;再针对每一类商户,先从底层获取最基础的单层关联规则,然后再采用汇总的数据挖掘技术,获取高支持度和高置信度的强关联规则,作为营销决策依据。通过分析所挖掘出来的规则,对特定分类的商户进行针对性的商品推荐,同时为上层决策提供数据支撑。
关键词:聚类;多层关联规则;烟草商业;营销推荐系统
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)01-0005-02
1 研究背景
如何进行营销决策一直是烟草行业的重要研究课题。商烟公司根据国家的计划向烟草工业公司订购卷烟,然后再把卷烟销售给零售商户。由于商烟公司订购的香烟的产地、品牌、质量和价格等各不相同,不同的商户的需求不同,现有的模式是分配制度,造成有些香烟很难销售,目前大多采用搭售的策略,但如何搭售是一种营销策略,盲目搭售会造成用户满意度降低,而且会造成销售效率降低,
目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。
2 技术关键
本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。
2.1 特征选择
假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:1) 计算标准化后的矩阵Z的样本的协方差矩阵Cov; 2) 计算协方差矩阵Cov的本征向量 e1,e2,…,en的本征值。本征值按大到小排序;3) 投影数据到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。
2.2 基于营销目标限制的商户精确聚类算法
现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。
烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X = [A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1, x2, …, xm)表达,如果属性Aj的值不存在,则Aj = ε。令Χ = {X1, X2, …, Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi = {xi,1, xi,2, …, xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi| ≤ m。如果存在Xi,j =Xk,j,1≤j≤m,则Xi = Xk。
为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n, I, S)来表示。其中n为类C中的对象数量,I = {i1, i2, …, iu}是C内所有属性值的集合,S = {s1, s2, …, su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n, I, S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。
给定一个类C包含n个对象{X1, X2, …, Xn},Xi = {xi,1, xi,2, …, xi,m},i = 1, 2, …, n,则类C的聚类汇总CS(n, I, S)各成员可通过下列公式得到。
CS.n = n
CS.I = X1∪X2∪…∪Xn
CS.S.sj = [k=1n|{ij
原创力文档


文档评论(0)