web使用挖掘中若干问题的研究计算机软件与理论专业论文.docxVIP

  • 2
  • 0
  • 约12.24万字
  • 约 116页
  • 2019-01-30 发布于上海
  • 举报

web使用挖掘中若干问题的研究计算机软件与理论专业论文.docx

web使用挖掘中若干问题的研究计算机软件与理论专业论文

中山大学博士学位论文论文题豳 中山大学博士学位论文 论文题豳 W曲使用挖掘中若干问题的研究 专 妲 计箨机软件与理论 撼士生 陈健 捅导教师 姜云飞教授,印鉴教授 摘 要 Internet的商速发展使之成为 个分布广泛的全球性信息服务中心。随 整在线蹦户数鬣於迅速增长,、№b骚务器上积累了大量豹Web谚滔露筏嚣基 息。为了支持正确的决策,人们希翅发现Web使用数据中的有用信息,以 便更好懿理解怒户在Web上的行为。Web使用挖掇是摆使摄数据挖掇技术 从Web数据中发现用户使用模式的过程。运用Web使用挖掘技术能够从服务 器、测赞器端的历史记录和用户的个人信恩中自动发现隐藏在数据中的模式 信息,捕捉到系统的访问模式以及用户的行为模式。基于这些肖用信息,研 究人员德以展开一系列的具体应用,包括提高Web的服务质量、系统续构优 化等等。 Web使用挖掘是一个结合了众多学科知识的新兴领域,涌现出很多有待 解决的新课题和新方向。本文通过理论分析加以辅助实验,围绕web使用挖 掘中的几个主要问题进行了研究。 作为对Web使用挖掘进行研究的开始和基础,本文首先对Web使用挖掘 中各个阶段进行了全面的分析,尤其对数据预处理中用户会话和用户事务的 识别技术进行了深入的探讨和分析:详细研究了Web使用挖掘的有关理论及 应用字问:展望了Web使用挖掘未来的研究方向。 目前关于Web使用模式的挖掘研究大都集中在发现事务内项目之间的关 联,也就是模式中的项目都是发生在同一事务内的。本文将Web使用模式的 范围由单一的事务内扩展到事务间。Web事务间的关联规则描述的是不同 的Web事务之间存在的相互关系。本文提出利用频繁项目集的闭合性质来解 决事务间关联规则的挖掘,给出必要的扩展定义以及设计和实现了一个高 效的算法CFCIM。实验结果证明该算法的时问效率比基于投影的FITI算法要 高。 关联分类是通过挖掘训练集中数据属性和类别标号之间的关联来为新 数据预测类别的分类技术。这项技术可以运用在根据访问模式或使用记录 对Web用户进行分类中。近几年来的研究指出这种分类技术比传统的基于规 则的分类方法具有更高的准确性和更好的效率,因此得到了广泛的关注。然 而,以往的工作大多关注于如何在支持度一置信度的框架上实现这种分类技 而,以往的工作大多关注于如何在支持度一置信度的框架上实现这种分类技 术,因而存在支持度一置信度框架中闽值指定依赖经验、关联规则产生偏见等 问题。本文提出了一个基于相关性分析的关联分类算法ACBCA,直接从训练 数据集中抽取女个最好的正相关和负相关规则用于分类,从而避免复杂的阂值 指定和偏见规则等问题。大量的实验证明,该算法比其它的基于规则的分类 算法(如C4.5)或是基于支持度一置信度框架的关联分类算法(女NCBA)具有 更高的准确性。 索引技术是组织和管理Web使用信息的有力手段。k一最近邻及其检索算 法一直都是索引技术中的主要核心问题之一,尤其在多维数据库系统的检索 和查询方面起着相当重要的作用。近年来,%一最近邻的逆问题逐渐得到人们 广泛的关注。所谓逆≈一最近邻居,就是在给定的数据集S中将查询点q视为 其≈一最近邻的所有点的集合。本文深入研究了逆☆一最近邻的理论基础,并吸 取了索引树对多维数据集整体特征良好的表达能力,提出了基于多维向量的 动态索引结构RkNNTree,及其检索方式RkNNQuery算法。实验结果表明,在多 维数据集中,该算法比朴素的R≈ⅣⅣ查询算法效率有显著的提高。 目前的基于用户的协作过滤推荐算法由于使用了基于内存的最近邻查询 算法,因此体现山可扩展性差,缺乏稳定性的缺点。最近,针对可扩展性的 问题,研究人员提出了基于项目的协作过滤算法,但它仍然不能解决数据稀 疏带来的推荐质量下降的问题(稳定性羞)。从影响集的概念中得到启发, 本文提出一个新的基于项目的协作过滤推荐算法CFBIS,利用当前对象的影 响集来提高该资源的评价密度。CFBIS同时结合当前对象的≈个最近邻和≈7个 逆最近邻来为当前对象产生推荐,并为这种新的推荐机制定义了计算预测值 的方法。实验结果证明,该算法在多个方面均优于现有的只基于最近邻产生 推荐的项目协作过滤算法,而且这种方法有效的缓解了数据集稀疏的问题。 关键词:Web使用挖掘;事务间关联规则;关联分类;影响集;推荐系统 II Title: Title: Contributions to Several Issues of Web Usage Mining Major: Computer Software and Theory Name: C珏EN Jian Supervisor:Prof.JIANG Yunfei,Prof.YIN Jian Abstrac

文档评论(0)

1亿VIP精品文档

相关文档