基于关联分析的数据挖掘技术在电子商务中的应用.docVIP

下载本文档

18
0
约3.05千字
约 5页
2018-04-07 发布于北京
举报
版权申诉

基于关联分析的数据挖掘技术在电子商务中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联分析的数据挖掘技术在电子商务中的应用　　摘要：本文介绍了数据挖掘技术在电子商务中的应用，重点进行数据挖掘的关联分析技术分析。结合数据挖掘的相关技术，以便开发出有效、实用的数据挖掘系统。　　关键词：数据挖掘；电子商务；关联分析；系统　　中图分类号：TP311.13 文献标识码：A文章编号：1007-9599 (201105-0000-01 　　 Data Mining Technology Application in E-commerce Based on Correlation Analysis 　　Wu Juhua 　　(Xinxiang University,Xinxiang453000,China) 　　Abstract:This paper introduces data mining application in e-commerce,focusing on data mining technique of association analysis.Associated with data mining techniques to develop effective,practical data mining system. 　　Keywords:Data mining;E-commerce;Correlation analysis;System 　　随着计算机技术，网络技术和数据库技术的成熟。商务电子平台为客户提供了便捷，商家要了解客户的购买情况，需要对大量的购买数据进行分析，主要分析客户的喜好，对产品的要求，以及购物的具体需求，这样数据挖掘技术对具有海量的购买数据进行分析，可以得出有价值的信息，这些信息为企业的决策提供了重要的参考依据。目前很少有做电子商务的企业会考虑到应用数据挖掘服务，随着硬件发展的加快，如今的服务器都可以做数据挖掘的分析，因此，在电子商务平台应用数据挖掘技术是未来发展的一种趋势，这样可以避免企业造成决策上的失误。　　数据挖掘技术发展了数十年，一直停留在技术的研究，近几年数据挖掘技术被广泛的应用在各个领域，也越来越多的走近我们的生活，现在也具备实现数据挖掘技术在电子商务平台应用的条件，与电子商务销售关系最密切就是关联分析算法，选择这个算法就是为了判断客户与商品之间的关系，从大量的数据分析客户潜在的购物需求。本文结合数据挖掘技术在电子商务中的应用，以数据挖掘的关联分析这个技术角度进行分析，指出各种数据挖掘技术适用的场合，以便开发出切实可用的数据挖掘电子商务系统。　　一、相关应用技术概念　　关联规则的概念和模型首先是由R.Agrawal和R.Srikant于1994年提出的。目前对关联规则的研究可分为以下几类：一是按变量的类别。二是按数据的抽象层次。三是按数据的维数。　　关联规则定义为：假设I是项的集合。给定一个交易数据库，其中每个事务（Transaction）t是I的非空子集，即，每一个交易都与一个唯一的标识符TID（Transaction ID）对应。关联规则在D中的支持度（support）是D中事务同时包含X、Y的百分比，即概率；置信度（confidence）是包含X的事务中同时又包含Y的百分比，即条件概率。关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。　　关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组（Frequent Itemsets），第二阶段再由这些高频项目组中产生关联规则（Association Rules）。　　Apriori算法是Rakesh Agrawal和Rnamakrishnan Srikant在1998年提出的关联规则的经典算法，它利用已知的高频数据项集推导其他高频数项集，是一种宽度优先算法。　　二、数据挖掘求解问题的步骤　　关联规则求解问题的步骤为：　　（一）预处理与采掘任务有关的数据，根据具体问题的要求对数据库进行相应的操作，从而构成规格化的数据库D。数据的格式对挖掘起着至关重要的作用，要合理有效的把原数据格式化成规范化及合理的形式，这样可以让结果更准确。　　（二）针对D，求出所有满足最小支持度的项集，即大项集，此步是算法的核心。求出的项集数目非常大，要合理的筛选和分析，找出最佳条件。　　（三）生成满足最小可信度的规则，形成规则集R，解释并输出R。　　三、数据挖掘在电子商务的实际应用　　（一）在进行数据挖掘项目之前需要对数据进行预处理，数据预处理是知识发现中很重要的一个环节，占整个项目的60%的工作，高效的算法往往依赖于高质量的或者特殊要求的数据，数据预处理主要包括三个步骤：数据清理、数据集成和数据变换。数