- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
38基于数据挖掘的电子商务个性化推荐技术研究008.pdf
第二章数据挖掘与电了:商务推荐技术
第二章 数据挖掘与电子商务推荐技术
随着计算机技术的发展,数据收集和存储技术也得到了长足的进步,世界各
个组织机构也都具有了海量的资料数据。而传统的数据分析技术无法从这些数据
中提取有用的信息,于是人们便致力于海量数据的研究和应用,这就产生了数据
挖掘技术。以网络为基础的电子商务网站上的数据量巨大且更新很快,因此将数
据挖掘技术顺理成章地作用在了电子商务推荐系统之上,并取得了一定的成果。
本章着重剖析数据挖掘技术以及电子商务推荐技术相关算法,为后续章节的研究
奠定基础。
2.1 数据挖掘
2.1.1数据挖掘定义
数据挖掘(DataMining)瞄3是采用统计学、人工智能和神经网络等领域的科学方
法,如记忆推理、聚类分析、关联分析、决策树、神经网络、基冈算法等技术,
从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋
势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、
工具和过程。
数据挖掘涉及多学科技术的集成,包括有:数据库技术、高性能计算、统计
学、机器学习、模式识别、神经网络、数据可视化、信息检索、图像与信号处理
和空间数据分析等。
相比传统的数据处理分析技术,数据挖掘技术可以处理具有如下特点叩1及相应
需求的数据:
(1)复杂数据。传统的数据分析技术只能处理相同类型的数据,而在科学、
商务、医学等领域的数据对象越来越复杂,比如说弹道导弹拦截系统的分析成像
数据,半结构化文本和超链接的web页面结构数据,电子邮件系统的分析数掘,
人类基因变异的三维结构数据等等,要处理好此类数据,必须要理清它们之间的
联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素
之间的父子关系或网状结构等。
(2)多维性。一些数据具有数以百计甚至数以千计的属性,例如在医学方面,
微阵列技术的进步已经产生了基因的数千个特征属性;再比如在天气预测过程中,
不同的时间、地点、温度及风力等也具有多维特点,而且当温度及风力等在一个
相当长的时间周期内重复测量时,维度的增长会正比于测量的次数。
(3)可伸缩性。在处理海量数据要用到特殊的算法技术,比如如何降低执行
分布式计算的通信量,如何有效地统一从多个资源得到挖掘结果,如何处理数据
安全性问题等,只有采用并行和分布算法等才能够体现处理这种数据的伸缩性。
8 基于数据挖掘的I乜了商务个性化推荐技术研究
(4)非传统的分析。一般来说,传统的统计方法先提出一种假设,然后设计
实验来收集数据,再针对假设分析数据,但这样往往要设计很多假设,费时费力,
这时就需要采取能自动进行假设并进行结果分析的方法来分析。而数据经过挖掘
后,可以从数据库中提取有趣的知识、规律或高层信息,并可以从不同角度观察
或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理等等。
2.1.2数据挖掘功能
数据挖掘功能用于指定数据挖掘任务中要找的模式类型,数据挖掘具有如下
功能Ⅲ:
分类来描述事物,也就是学会一个分类函数或分类模型(也称作分类器),该模型
能把数据库的数据项映射剑给定类别中的某一个。
该功能一般分为二步,第一步是建立一个模型,描述预定的数据类集或概念
集,通过分析由属性描述的数据库元组来构造模型。学习模型用分类规则、判定
树或数学公式的形式提供。例如,给定一个顾客信用信息数据库,可以学习分类
规则,根据他们的信誉度来识别顾客,这些规则可以用来为以后的数掘样本分类,
以对数据库的内容提供更好的理解。第二步就是用建好的模氆进行分类,采用评
估过的认为准确率高的模型来对要挖掘的数据进行分类。
若干类,把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个
体之间的距离尽可能地小,而不同类别的个体问的距离尽可能地大。例如:申请
人分为高度风险申请者,中度风险申请者,低度风险申请者。
(3)关联规则口6】(Association
analysis)。关联足某种事物发生时其他事物也
会发生的这样一种联系,主要用于从客户访问序列数据库的序列项中挖掘出相关
的规则。
在Web数据挖掘中,关联规则挖掘就是要挖掘出客户在一个访问期Pjj(Session)
从服务器上访问的页面/文件之间的联系,这些页面之
原创力文档


文档评论(0)