探析数据挖掘技术在烟草行业中应用.docVIP

探析数据挖掘技术在烟草行业中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
探析数据挖掘技术在烟草行业中应用

探析数据挖掘技术在烟草行业中应用   摘 要:随着信息技术的高速发展,人们积累的数据量急剧增长,与此同时也出现了一门能从海量的数据中提取有用知识的技术――数据挖掘技术。文章正是探讨如何将数据挖掘技术更加广泛地应用于烟草行业管理和经营的数据分析上,以期从中发掘潜在的有价值的信息,用于指导卷烟经营,提高烟草企业综合竞争力,实现“卷烟上水平”,更好的服务广大烟草零售户和消费者。   关键词:烟草行业;数据挖掘;时间序列;孤立点;遗传算法   引言   随着市场经济体制的不断完善和对外开放的不断扩大以及我国的入世,烟草行业作为一个相对封闭的国家垄断行业,面临前所未有的严峻形势。为迎接挑战,烟草行业信息化建设在党的十六大提出的以信息化带动工业化、以工业化促进信息化,走新型工业化道路的战略指引下,按照“统一标准、统一平台、统一数据、统一网络”的总体要求,逐步实现了系统集成、资源整合、信息共享。烟草行业信息化发展迅猛,业务系统、物流系统、专卖系统等一系列应用系统,在支撑企业日常运营管理工作的同时,已积累了大量的、丰富的数据,如何有效地从这些数据中清理、归纳、挖掘出潜在的有价值的关系和规则,以更好的预测未来的发展趋势,制定有效的营销策略、指导商业行为、提供决策支持都显得至关重要。近年来,数据挖掘作为信息领域运用最广泛的技术之一,它可以高度自动化地分析所获得的数据,从中发现有价值的信息,更好的辅助销售分析和预测,帮助决策者做出正确的决策。   1 数据挖掘概述   1.1 数据挖掘的定义   所谓数据挖掘[1](Data Mining),就是一个利用各种分析方法和分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。从商业的角度来看,就是将数据库中积累的大量的业务数据进行提取、转换、分析,从中发现隐含的、有意义的关键性数据,从而为公司决策层的决策提供依据。   1.2 数据挖掘的过程   数据挖掘的过程包含以下五个步骤[2]:   (1)确定研究对象:清晰地定义出业务问题,包括分析业务需求,定义问题的范围,定义计算机模型所使用的度量,以及定义数据挖掘项目的特定目标,这是数据挖掘的重要一步。   (2)数据准备:现实世界的数据一般是含噪声的、冗余的、不完整的和不一致的,这将严重地影响数据挖掘的质量,因此需要对数据进行一定的处理,包括数据的选择、数据的预处理和数据的转换。   (3)数据挖掘:对所得到的经过转换的数据进行挖掘,除了完善所选择的挖掘算法外,其余一切工作都能自动地完成。   (4)结果分析:解释并评估结果,其使用的分析方法一般根据数据挖掘操作而定,通常会用到可视化技术。   (5)知识同化:将分析所得到的知识应用于决策,或集成到业务信息系统的组织结构中。   图1 数据挖掘过程框图   1.3 数据挖掘的主要方法   1.3.1 关联分析。它是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导和后继。用关联规则可以从大量数据项集中挖掘出它们之间有趣的联系。此外,关联规则也可用于序列模式发现。   1.3.2 分类。它能将数据库中的数据项,映射到给定类别中的一个。分类[3]定义了一种从属性到类别的映射关系,给定样本的属性值,根据已知的模式将其划分到特定的类中。   1.3.3 聚类分析。聚类是根据一定的规则,按照相似性把样本归成若干类别。在对样本合理划分后,对不同的类进行描述。聚类通常用于将客户细分成不同的客户群,如有相同爱好的客户群。   1.3.4 时间序列。按照时间的顺序把随机事件变化发展的过错记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。   1.3.5 孤立点分析。孤立点在数学上是指坐标满足曲线方程,但并不落在曲线上的点。它也可以被看作是在数据集合中与大多数数据特征不一致的数据。对孤立点进行分析极有可能发现重要的隐藏信息。   1.3.6 遗传算法。它是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法;是一个以适应度为目标函数,对种群个体施加遗传操作,实现群体结构重组,经迭代而达到总体优化的过程。   目前,将数据挖掘技术应用于烟草行业的研究逐步受到重视。欧阳秀君,刘文在《数据挖掘技术在烟草CRM中的应用》一文中[4],主要探讨如何将数据挖掘中的关联规则、聚类、分类方法应用于烟草CRM中。康江峰,陈辉[5]将基于数据挖掘的技术应用于对烟草精准营销策略的研究。王辛盟[6]采用数据挖掘技术,利用SPSS统计软件,以某烟草配送中心的订单数据和客户资料数据为数据源,用聚类的方法对客户群进行细分。郑阳洋、刘希玉[

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档