- 1
- 0
- 约9.65千字
- 约 4页
- 2017-05-10 发布于河南
- 举报
学兔兔
1 匐 似
一 种新的基于事物聚类Web浏览偏爱路径挖掘算法
New approachofmininguserspreferredbrowsingpathsbasedon
thingsclusteringalgorithm
李晓静,王树森
LlXiao-jing。、V/ANGShu—sen
(济源职业技术学院,济源 459000)
摘 要;目前的挖掘算法单纯考虑了用户的访问频度,而忽略了用户对访问路径的兴趣度。本文通过
分析目前用户偏爱路径挖掘算法存在的问题,结合事物聚类算法,将雅克比系数与最长公共
路径系数相乘,得到更准确地用户相似集,并基于一个三元组模型构造以页面兴趣度为元素
值的网站浏览数据矩阵,采用改进的挖掘算法计算用户偏爱度和访问兴趣度,降低访问页面
闲置及链接等因素对数据挖掘的影响;实验结果表明,该算法针对Web日志海量数据进行挖
掘,具有较高的效率和准确率。
关键词:事物聚类算法;数据挖掘;Web日志;浏览偏爱路径
中圈分类号:TP3 文献标识码 :A 文章编号:1009-0134(~013)02(下)-0065-03
Ooi:10.3969/J.Issn.1009-0134.2013.o2(下).17
0 引言 页面大小,从而可以得到更为准确地偏爱路径。
使用web用户浏览偏爱路径挖掘算法分析Web 1 改进的事物聚类算法
日志记录,并发现用户访问规律,已成功应用于 1.1事物聚类算法的基本定义
个性化推荐、系统改进以及商业智能等方面 。 目 设n个用户访问路径集合U={C。,C2,o.o,C),其
前在浏览模式的获取上常用的算法主要有最大频 中一条访 问路径为Ci={V。,V2,…,Vi),其 中Vi表示
繁序列法、引用长度法和树型拓扑结构法等川,但 一
个被访 问过的节点。
是这些算法其实都是一种改进的关联规则算法,
定义1:用户访问路径中节点的个数等于路径
存在 以下两方面的问题:一是简单地认为用户的
长度C。
浏览频度就代表 了用户的访 问兴趣度 ,这很片
定义2:雅克比系数:
面;其次,随着网络的发展,Web日志数据逐渐呈
现出分布性、异构性、动态性和海量性等特点口】, = l
传统的集 中式数据挖掘算法就不能满足对拥有海
例如有两条Web用户访 问路径C,={V ,V2,
量数据的Web日志进行挖掘处理的需求。
V ),C:={V ,V ,V3),采用雅克比系数进行计
为了解决上述问题,本文将事物聚类算法和
算的结果均为l,但是这两条路径显然是不相同
Web用户浏览模式挖掘算法相结合,并对现有算
法进行改进 ,提出将雅克比系数与最长公共路径 的,
您可能关注的文档
最近下载
- 中学生交通安全教育培训课件PPT.pptx VIP
- 牵引供电系统 牵引变电所供电方式 牵引变电所供电方式.ppt VIP
- 1.03 玉米高产管理技术 - (先锋克劳森).pptx VIP
- 杜邦公司讲座杜邦安全管理介绍.pptx VIP
- 2025年广西财经学院辅导员招聘考试笔试模拟试题及答案解析.docx VIP
- (正式版)DB65∕T 3611-2023 《农业用水定额》.pdf VIP
- 2025年江苏省南京市中考英语试卷(含解析).pdf VIP
- (2025年版)国家基层高血压防治管理指南PPT课件.pptx VIP
- 2024年山东交通职业学院高职单招(英语/数学/语文)笔试题库含答案解析.docx VIP
- 2017年-2022年暨南大学考研701美学原理真题.pdf
原创力文档

文档评论(0)