- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在商业领域中应用
数据挖掘技术在商业领域中应用
[摘 要] 文章在给出数据挖掘概念的基础上,指出数据挖掘的三个主要阶段,提出了数据挖掘的典型统计分析方法与常用的技术,并指出其在商业领域中的应用。
[关键词] 数据挖掘;过程;分析方法;商业应用
[中图分类号] F270.7[文献标识码] A[文章编号] 1673-0194(2006)01-0008-02
1引言
目前,数据挖掘是国际上数据库和信息决策领域的最前沿研究方向之一。越来越多的企业开始利用数据挖掘技术来分析公司的数据,以辅助决策。数据挖掘正逐渐成为他们在市场竞争中立于不败之地的法宝。
数据挖掘是从大量的数据中抽取出有效的、新颖的和潜在有用的知识的过程。其目的是提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等。在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是由外部输入的,而数据挖掘的任务是从大量数据中发现尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决策者明确了解的信息,可以用查询、联机分析处理或其他工具直接获取。而另外一些隐藏在大量数据中的关系、趋势等信息,就需要数据挖掘技术来完成。
2数据挖掘的过程
数据挖掘过程一般由三个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。知识的发现可以描述为这三个阶段的反复过程。
2.1数据准备
这个阶段又可进一步分成三个子步骤:数据集成、数据选择、数据预处理。数据集成将文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。
2.2数据挖掘
这个阶段进行实际的挖掘操作。主要包括:(1)决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘;后一种称为验证型的数据挖掘。(2)选择合适的工具。(3)挖掘知识的操作。(4)证实发现的知识。
2.3结果表述和解释
根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数
据挖掘的过程。
3数据挖掘典型的分析方法
在实际应用中,数据挖掘利用的方法和技术越多,得出的结果精确性就越高。因为,对于某一种方法或者技术不适用的问题,其他方法很可能奏效,这主要取决于问题的类型及数据的类型和规模。数据挖掘方法有很多种,其中比较典型的有关联分析、序列分析、分类分析和聚类分析四种。
3.1关联分析
关联分析是寻找在同一事件中出现的不同项的关联性。比如,超市中70%的客户在购买商品A的同时,有90%会购买B,即关联规则是A=B。若超市将商品A和B放在一起销售,将会提高它们的销售量。
在大型数据库中,这种关联规则是很多的,需要进行筛选,一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。
在本例中,设关联规则A=B的可信度为C,支持度为S,则
C=同时购买商品A和B的交易数/购买了商品A的交易数
S=同时购买商品A和B的交易数/总交易数
本例的关联规则A=B的可信度为C=90%,支持度S=70%。
3.2序列分析
序列分析与关联规则类似,但它寻找的是事件之间时间上的关联性。比如,超市中60%的客户在购买商品A后,隔一段时间,其中有80%会再购买B,即序列模式是A=B。显然,通过序列模式分析,超市可以发现客户潜在的购买模式。
在序列模式分析中,同样需要用“支持度”和“可信度”两个阈值来淘汰那些无用的序列模式。
在本例中,设序列A=B的可信度为C,支持度为S,则
C=先购买商品A再购买商品B的客户数/先购买了商品A的客户数
S=先购买商品A再购买商品B的客户数/总客户数
本例的序列模式A=B的可信度为C=80%,支持度S=60%。
3.3分类分析
设有一个数据库和一组具有不同特征的类别(标记),且该数据库中的每一个记录都已经分好类,即数据库中的每一个记录都赋予一个类别的标记,我们把这样的数据库称为训练集。分类分析就是通过分析训练集中的数据而求得分类规则,然后用这个分类规则对其他数据库中的记录进行分类。
例如,信用卡公司的数据库中保存着各持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类:良好、一般、较差,并
文档评论(0)