- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于Web的个性化服务简介个性化服务技术基于Web的个性化服务改进思路简介主要问题:浏览过程中总是会出现一些自己毫不关心的话题解决方法:以网站为中心-以用户为中心提供个性化服务个性化服务(Personalization)[1]尽可能地迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化02尽可能使得自己的每个用户在浏览该商业网站时都有他就是该网站的唯一用户的感觉01Web挖掘就是利用数据挖掘技术从Web文档和服务中自动发现和抽取信息01WebminingistheuseofdataminingtechniquestoautomaticallydiscoverandextractinformationfromWebdocumentsandservices02Web挖掘的定义[1]Web挖掘(WebMining)分类[2]CBAWeb使用挖掘Web内容挖掘Web结构挖掘01020304推荐的超链接列表推荐的商品列表(电子商务)推荐的广告列表经裁剪的文本或图像列表个性化服务的表现形式输入标题简介输入标题输入标题输入标题改进思路2个性化服务技术基于Web的个性化服务143基于Web的个性化服务协同过滤技术(CF,CollaborativeFiltering)0102数据挖掘技术(DM,DataMining)个性化服务技术基于项目(Item-based)的协同过滤03基于聚类(Clustering-based)的协同过滤02KNN技术(K-NearestNeighboring)01协同过滤技术[3]需要用户提供主观的评价信息1不能处理大规模的数据量2用户的评价信息可能会过时3使用不方便4协同过滤技术的缺陷01.关联规则(AssociationRules)发现02.序列模式(SequencePattern)发现03.聚类(Clustering)技术04.Web挖掘(WebMining)技术数据挖掘技术不需要用户提供主观的评价信息可以处理大规模的数据量用户访问模式动态获取,不会过时使用方便Web挖掘技术的优点基于Web的个性化服务简介改进思路个性化服务技术基于Web的个性化服务基于Web的个性化服务基于Web使用挖掘的个性化服务基于Web使用挖掘和Web内容挖掘的个性化服务基于Web使用挖掘的个性化[4]基本思路:分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务离线部分数据预处理总体使用特征获取1在线部分推荐引擎2基本过程用户识别(UserIdentification)路径完善(PathCompletion)事务识别(TransactionIdentification)浏览页识别(PageviewIdentification)会话识别(SessionIdentification)数据清洗(DataCleaning)数据预处理[5]浏览页集合P表示为:P={p1,p2,…,pn}用户事务集合T表示为:T={t1,t2,…,tm}每一个事务t?T均表示为为浏览页集合P的n维向量:t=w(p1,t),w(p2,t),…,w(pn,t)数据预处理的结果总体特征获取使用聚类算法得到不同的事务聚类同一个事务聚类内用户之间的浏览模式尽可能相似,而不同事务聚类中用户之间的浏览模式尽可能不同给定事务聚类c和显著性阈值?,事务聚类c的总体使用特征prc的计算方法如下:prc={p,weight(p,prc)|p?P,weight(p,prc)??}weight(p,prc)=根据当前的用户会话产生实时的推荐集用户当前会话S可以表示为:S={s1,s2,…,sn}总体使用特征C可以表示为:C={w1C,w2C,…,wnC}推荐引擎01使用余弦相似性函数来计算C和S之间的匹配系数:02计算浏览页p的推荐系数Rec(S,p):推荐引擎基于Web使用挖掘和Web内容挖掘的个性化[6]基于Web使用挖掘的个性化服务的问题:商业网站的用户使用数据比较少网站内容变化比较频繁基本思路:在基于Web使用挖掘的基础上,根据浏览页内容之间的相似性为用户提供个性化服务离线部分数据预处理内容特征获取在线部分推荐引擎0102基本过程从文本数据和元数据中抽取内容特征内容特征权重的计算方法:元数
文档评论(0)