数据挖掘技术在商业领域中应用.docVIP

下载本文档

8
0
约3.86千字
约 10页
2018-09-10 发布于福建
举报
版权申诉

数据挖掘技术在商业领域中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术在商业领域中应用

数据挖掘技术在商业领域中应用　　［摘要］文章在给出数据挖掘概念的基础上，指出数据挖掘的三个主要阶段，提出了数据挖掘的典型统计分析方法与常用的技术，并指出其在商业领域中的应用。　　［关键词］数据挖掘；过程；分析方法；商业应用　　［中图分类号］ F270.7［文献标识码］ A［文章编号］ 1673-0194(2006)01-0008-02 　　　　1引言　　　　目前，数据挖掘是国际上数据库和信息决策领域的最前沿研究方向之一。越来越多的企业开始利用数据挖掘技术来分析公司的数据，以辅助决策。数据挖掘正逐渐成为他们在市场竞争中立于不败之地的法宝。　　数据挖掘是从大量的数据中抽取出有效的、新颖的和潜在有用的知识的过程。其目的是提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等。在传统的决策支持系统中，知识库中的知识和规则是由专家或程序人员建立的，是由外部输入的，而数据挖掘的任务是从大量数据中发现尚未被发现的知识，是从系统内部自动获取知识的过程。对于那些决策者明确了解的信息，可以用查询、联机分析处理或其他工具直接获取。而另外一些隐藏在大量数据中的关系、趋势等信息，就需要数据挖掘技术来完成。　　　　2数据挖掘的过程　　　　数据挖掘过程一般由三个主要的阶段组成：数据准备、挖掘操作、结果表达和解释。知识的发现可以描述为这三个阶段的反复过程。　　　　2.1数据准备　　这个阶段又可进一步分成三个子步骤：数据集成、数据选择、数据预处理。数据集成将文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合，缩小处理范围，提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。　　　　2.2数据挖掘　　这个阶段进行实际的挖掘操作。主要包括：（1）决定如何产生假设，是让数据挖掘系统为用户产生假设，还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘；后一种称为验证型的数据挖掘。（2）选择合适的工具。（3）挖掘知识的操作。（4）证实发现的知识。　　　　2.3结果表述和解释　　根据最终用户的决策目的对提取的信息进行分析，把最有价值的信息区分出来，并且通过决策支持工具提交给决策者。因此，这一步骤的任务不仅是把结果表达出来，还要对信息进行过滤处理，如果不能令决策者满意，需要重复以上数　　据挖掘的过程。　　　　3数据挖掘典型的分析方法　　　　在实际应用中，数据挖掘利用的方法和技术越多，得出的结果精确性就越高。因为，对于某一种方法或者技术不适用的问题，其他方法很可能奏效，这主要取决于问题的类型及数据的类型和规模。数据挖掘方法有很多种，其中比较典型的有关联分析、序列分析、分类分析和聚类分析四种。　　　　3.1关联分析　　关联分析是寻找在同一事件中出现的不同项的关联性。比如，超市中70%的客户在购买商品A的同时，有90%会购买B，即关联规则是A=B。若超市将商品A和B放在一起销售，将会提高它们的销售量。　　在大型数据库中，这种关联规则是很多的，需要进行筛选，一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。　　在本例中，设关联规则A=B的可信度为C，支持度为S，则　　C=同时购买商品A和B的交易数/购买了商品A的交易数　　S=同时购买商品A和B的交易数/总交易数　　本例的关联规则A=B的可信度为C=90%，支持度S=70%。　　　　3.2序列分析　　序列分析与关联规则类似，但它寻找的是事件之间时间上的关联性。比如，超市中60%的客户在购买商品A后，隔一段时间，其中有80%会再购买B，即序列模式是A=B。显然，通过序列模式分析，超市可以发现客户潜在的购买模式。　　在序列模式分析中，同样需要用“支持度”和“可信度”两个阈值来淘汰那些无用的序列模式。　　在本例中，设序列A=B的可信度为C，支持度为S，则　　C=先购买商品A再购买商品B的客户数/先购买了商品A的客户数　　S=先购买商品A再购买商品B的客户数/总客户数　　本例的序列模式A=B的可信度为C=80%，支持度S=60%。　　　　3.3分类分析　　设有一个数据库和一组具有不同特征的类别（标记），且该数据库中的每一个记录都已经分好类，即数据库中的每一个记录都赋予一个类别的标记，我们把这样的数据库称为训练集。分类分析就是通过分析训练集中的数据而求得分类规则，然后用这个分类规则对其他数据库中的记录进行分类。　　例如，信用卡公司的数据库中保存着各持卡人的记录，公司根据信誉程度，已将持卡人记录分成三类：良好、一般、较差，并