基于关联的聚类分析在个,陡化.PDFVIP

  • 1
  • 0
  • 约1.22万字
  • 约 4页
  • 2019-01-14 发布于天津
  • 举报
基于关联的聚类分析在个,陡化

2 情 报 杂 志 Vo1.28 N().3 第 8 期 2009年 3月 JOURNALOFINTEILIGENCE Mar. 2009 基 于 关 联 的聚 类 分 析 在 个 ,陡化 服 务 中 的应 用 * ApplicationinPersonalizedServiceBasedonClusterAnalysisofAssociation 陈雪刚 ,2 李肯立2 (1.湘南学院数学系 郴州 423000;2.湖南大学计算机与通讯学院 长沙 410073) 摘 要 运用关联规则,确定用户频繁访问模式,使用页面相似聚类分析对用户频繁访 问集分类,挖掘具有相似访 问兴趣的网络用户的浏览模式,并对相关算法作 了改进。从满足用户个性化信息服务 出发,给出一种基于关联的用 户访问模式聚类方法。实践证明,将基于关联的聚类分析方法应用到个性信息服务中是有效的。 关键词 关联规则 数据挖掘 聚类 个性信息服务 Web日志 中图分类号 TP391 目前大部分数字图书馆都提供了丰富的结构化数 供能够用于决策支持、智能查询、科学研究等知识服务 字信息资源包括电子图书、期刊、学位论文、报纸、政府 方面的规则和模式。 公报等,另外,随着 Intemet/Intranet的不断发展,基于 收集web服务器上的13志文件,这里所讨论的数 web形式的非结构化或半结构化信息总量和信息交互 据集类型都是web服务器上的 日志,其 日志文件一般 量已经变得非常巨大,为了查询信息,一般为用户提供 提供了用户访问web服务器所保 留的一系列网页需 一 些常规的检索功能,用户可以根据信息的关键字段 求,这些请求一般是 UserIP、UserID、Timestamp、 进行检索或组合关键字获得所需的信息资源。但这种 Method、URL、HrrPversion、Returncode(Statusofthe 检索方式 ,检索到的内容复杂,大量与主题无关的信息 request)、Bytestransferred、ReferrerpageURL、Browser 被搜索,用户真正需要的信息,还需要用户 自己进一步 used、Clientoperatingsystem组成。从这些信息中可以 筛选,获得的信息也往往是被动的,没有考虑用户的个 挖掘分析,发现用户访问服务器的行为模式、存取动 性行为,不能体现用户的个人兴趣。因此,根据不同用 作、停留时间等特性 ,其 目的主要是了解 web服务器 户需要提供主动的个性化信息服务 已经成为Web服 与用户怎样交互使用的,发现并提取具有相似访问兴 务的关键问题,按照个性化信息服务模式,主要有三种 趣的网络用户的浏览特征,挖掘出用户访问的浏览模 形式:一是个性化推送与定制服务。即根据用户的兴 式,从而进行分析并为web服务器的重组设计提供有 趣偏好,采用定制的web页面、分门别类的信息导航、 利信息,实现个性化信息服务。利用统计分析的方法 发送E—mail等方式,把具有针对性、特色性的信息传 发现用户访问兴趣浏览模式 ,用户访问了某一网页之 输给具有特定需求的用户。二是个性化推荐与报道服 后,是否也会访问其他一些与之有相对较高关联度的 务。即通过智能化推荐和主动报道的途径,深入分析 网页。如KITTSB[1J等提出以web服务器 日志中每个 用户的专业特征、研究兴趣,从而主动地向用户推荐 网页的请求为处理单元,从整体的角度 出发,分析评价 其可能需要的信息,是一种比较深层次的信息服务方 网站资源的方法。这种方法强调共性,但忽视了用户 式。三是个性化知识决策服务。这种服务强调充分运 作为个体的个性化。胡亚慧[]等运用改进的Markov 用知识挖掘、语义网络和人工智能等先进技术 ,对有 模型来预测用户的浏览模式,根据用户的浏览特征实 用的信息内容再进行深层次的分析与挖掘,向用户提 现网站个性化服务,在 web服务器 日志数据预处理 收稿 日期:2008—07—22 修回日期:2008—10—15 基金项 目:国家自然

文档评论(0)

1亿VIP精品文档

相关文档