基于web数据挖掘的个性化推荐研究.doc

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于web日志挖掘的个性化推荐方法研究 第一章 绪论 1.1研究背景与意义 1.2国内外研究现状 1.3 论文的内容安排 本文各章节按如下组织方式: 第一章 介绍互联网背景,引出基于web日志挖掘的个性化推荐研究的意义,分析国内外web日志挖掘和个性化推荐研究现状。 第二章 首先概述数据挖掘的基本知识,然后重点描述数据挖掘的重要分支web数据挖掘,然后对web数据挖掘在个性化推荐中的应用从数据源,建模过程做了介绍,最后分析了目前主要个性化推荐算法的优缺点引出本文选择的模型马尔可夫预测模型。 第三章 提出本文研究的重点web日志挖掘,并提出了基于web日志挖掘的一种框架设计,然后描述了各模块的功能和工作过程以及相互之间的协调工作。 第四章 介绍了马尔可夫模型的基本概念和三种基本马尔可夫模型,分析了三种模型的优缺点,提出改进的模型算法,分别从存储结构和构建过程上做了改进,分析改进模型的工作过程和相比较传统模型的优点。 第五章 通过实验对比用户模型生成时间,推荐生成时间,推荐准确度,证明了改进马尔可夫模型的可行性。 第六章 总结全文工作,指出本文不足的方面,并对接下来的工作提出展望。 第二章 web日志挖掘概述 2.1 数据挖掘 数据挖掘就是从大量的,模糊的,无规律的数据中,发现规律并提取出有价值的最终为人所利用的信息的非平凡过程。数据挖掘提取的信息是事先不为人所知的,因而所得信息具有未知性,有效性,实用性。数据挖掘由多个领域的理论和技术融合而成,包含数据库,人工智能,机器学习。现如今比较成熟的数据挖掘方法有关联分析,聚类分析,协同过滤等。以客户为中心的企业可以利用数据挖掘做好决策分析和用户管理。 2.1.1数据挖掘的一般过程 简单来说,我们可以把它大分为:确定对象,数据收集,数据预处理,数据挖掘阶段以及应用阶段。 1.确定挖掘对象:定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测的,但是要解决的问题应该是有预见性的、有目标的。在数据挖掘的第一步中,有时还需要用户提供一些先验知识。这些先验知识可能是用户的业务领域知识或是以前数据挖掘所得到的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能会提出新的问题;可能会尝试用其他的方法来检验数据,在数据的子集上展开研究。 2.数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出”,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参加。因此,领域问题的数据收集好之后,和目标信息相关的属性也选择好了。 3.数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应该在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转换成合适的形式。例如,在某些情况下,将数据转换成向量形式。另外,为了寻找更多重要的特征和减少数据挖掘步骤的负担,我们可以将数据从一个高维空间转换到一个低维空间。 4.数据挖掘:数据挖掘步骤主要是根据数据建立模型。我们可以在这个步骤使用各种数据挖掘算法和技术。然而,对于特定的任务,需要选择正确合适的算法,来解决相应的问题。 5.应用阶段:在数据挖掘得到合适的模型之后应用到实例中,应用模型对未知的数据进行预测。 2.1.2 数据挖掘的算法模型分类 从处理过程,功能模型,应用方向等不同的角度可以把数据挖掘分为不同的类别,在此我们以功能模型划分,可以把数据挖掘分为以下类型: 1.关联模型 关联模型的用途是发现事物之间的关系总结称规则为人所用,预测哪些事情将一起发生。例超市中客户在购买A的同时,会购买B,即A = B(关联规则)客户在购买A后,隔一段时间,会购买B (序列分析)聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。例a. 一些特定症状的聚集可能预示了一个特定的疾病b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群聚集通常作为数据挖掘的第一步。例如,哪一种类的促销对客户响应最好?,对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。例:a. 信用卡申请者,分类为低、中、高风险b. 故障诊断:采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。类的个数是确定的,预先定义好的Web内容挖掘主要应用此类数据。网站内容数据还包括嵌入在页面中的含语义的元数据,例如描述性关键字,文档属性,语义标签等。 (3)使用

文档评论(0)

lingyun51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档