38基于数据挖掘的电子商务个性化推荐技术研究008.pdfVIP

下载本文档

1
0
约2.22千字
约 2页
2015-08-01 发布于河南
举报
版权申诉

38基于数据挖掘的电子商务个性化推荐技术研究008.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

38基于数据挖掘的电子商务个性化推荐技术研究008.pdf

第二章数据挖掘与电了：商务推荐技术第二章数据挖掘与电子商务推荐技术随着计算机技术的发展，数据收集和存储技术也得到了长足的进步，世界各个组织机构也都具有了海量的资料数据。而传统的数据分析技术无法从这些数据中提取有用的信息，于是人们便致力于海量数据的研究和应用，这就产生了数据挖掘技术。以网络为基础的电子商务网站上的数据量巨大且更新很快，因此将数据挖掘技术顺理成章地作用在了电子商务推荐系统之上，并取得了一定的成果。本章着重剖析数据挖掘技术以及电子商务推荐技术相关算法，为后续章节的研究奠定基础。 2．1 数据挖掘 2．1．1数据挖掘定义数据挖掘(DataMining)瞄3是采用统计学、人工智能和神经网络等领域的科学方法，如记忆推理、聚类分析、关联分析、决策树、神经网络、基冈算法等技术，从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。数据挖掘涉及多学科技术的集成，包括有：数据库技术、高性能计算、统计学、机器学习、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等。相比传统的数据处理分析技术，数据挖掘技术可以处理具有如下特点叩1及相应需求的数据： (1)复杂数据。传统的数据分析技术只能处理相同类型的数据，而在科学、商务、医学等领域的数据对象越来越复杂，比如说弹道导弹拦截系统的分析成像数据，半结构化文本和超链接的web页面结构数据，电子邮件系统的分析数掘，人类基因变异的三维结构数据等等，要处理好此类数据，必须要理清它们之间的联系，如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系或网状结构等。 (2)多维性。一些数据具有数以百计甚至数以千计的属性，例如在医学方面，微阵列技术的进步已经产生了基因的数千个特征属性；再比如在天气预测过程中，不同的时间、地点、温度及风力等也具有多维特点，而且当温度及风力等在一个相当长的时间周期内重复测量时，维度的增长会正比于测量的次数。 (3)可伸缩性。在处理海量数据要用到特殊的算法技术，比如如何降低执行分布式计算的通信量，如何有效地统一从多个资源得到挖掘结果，如何处理数据安全性问题等，只有采用并行和分布算法等才能够体现处理这种数据的伸缩性。 8 基于数据挖掘的I乜了商务个性化推荐技术研究 (4)非传统的分析。一般来说，传统的统计方法先提出一种假设，然后设计实验来收集数据，再针对假设分析数据，但这样往往要设计很多假设，费时费力，这时就需要采取能自动进行假设并进行结果分析的方法来分析。而数据经过挖掘后，可以从数据库中提取有趣的知识、规律或高层信息，并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理等等。 2．1．2数据挖掘功能数据挖掘功能用于指定数据挖掘任务中要找的模式类型，数据挖掘具有如下功能Ⅲ：分类来描述事物，也就是学会一个分类函数或分类模型(也称作分类器)，该模型能把数据库的数据项映射剑给定类别中的某一个。该功能一般分为二步，第一步是建立一个模型，描述预定的数据类集或概念集，通过分析由属性描述的数据库元组来构造模型。学习模型用分类规则、判定树或数学公式的形式提供。例如，给定一个顾客信用信息数据库，可以学习分类规则，根据他们的信誉度来识别顾客，这些规则可以用来为以后的数掘样本分类，以对数据库的内容提供更好的理解。第二步就是用建好的模氆进行分类，采用评估过的认为准确率高的模型来对要挖掘的数据进行分类。若干类，把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能地小，而不同类别的个体问的距离尽可能地大。例如：申请人分为高度风险申请者，中度风险申请者，低度风险申请者。 (3)关联规则口6】(Association analysis)。关联足某种事物发生时其他事物也会发生的这样一种联系，主要用于从客户访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中，关联规则挖掘就是要挖掘出客户在一个访问期Pjj(Session) 从服务器上访问的页面／文件之间的联系，这些页面之