Web使用模式挖掘中路径分析技术研究.pdfVIP

Web使用模式挖掘中路径分析技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
· 应用研 究 · Web使用模式挖掘中路径分析技术研究 史 哲 李雨佳 (西北大 学 陕西西安 710069) 摘 要:Web使用模式挖掘是Web数据挖掘的重要研究内容。本文详细介绍了Web使用模式挖掘中的路径分析技术,并将AprioriAll算法引入路 径分析过程 ,对 其发展前景做 了合理 的展 望。 关键词 :Web数据挖掘 Web 使用模式挖掘 路径分析技术 中图分类号 :TP393 文献标识码 :A 文章编号:1007-9416(2010)10--00~8--02 1引 言 段 为单位记录 的 ,经过数据清洗 和事务识 个最大引用序列对应于Web中一条频繁出 数据挖掘 (DataMining)就是从数据库 别 以后是一个 间断 的时间序列 ,这 些序列 现的浏览路径 。对上面的例子,假设 {{AB}, 中发现隐藏在其 中的、潜在 的有用信息,并 反 映的用户行为有助于 网站 确认用户访 问 {BE},{AD},{CF},{FG},{BF}】是二维的大 把大量的原始数据转换成有价值 的知 识的 网站的兴趣所在 。 引用序列 ,{{ABE},{CFG}j是三维的大引用 一 门新 兴科学 。随 着数据库技 术的飞速发 (3)分类与聚类技术 (C1assificati0n 序 列 ,那 么 最 大 引用 序 列 为 {{ABE}, 展 ,尤其是随着Web应 用技 术的不断发展 Clustering)。分类规则可 以挖掘web日志中 {CFG),{AD),{BF}}。 和进步 ,Web资源 以指数级模型飞速增长 。 某 些共 同的特性 ,利 用该特性对 新添到数 得到 的最大 引用序 列后 ,就 可 以根 据 面临着浩瀚无边 的Web数 据 ,人们呼唤在 据 库里的数据项 进行分类 ,根据 访 问模式 用户 已经访 问过的站点来预 测他将要访 问 数据的汪洋中去伪存真 、去粗存精,因此以 得 出访 问某一服 务器 文件 的用 户特 性 。聚 的站 点 ,提高 网络 相应速 度 ,优 化 网站 结 网络数据为挖掘对象的Web数据挖掘技术 类分析用于将有 相似 特性的用 户、数据项 构 ,为 用户提供更加便捷 的服务 。 应用而生 …。 集合到一起 ,聚类的 目标是将大量 的数据 Oren Etioni在l996年首次提出Web数 项 聚集成类 ,使得 类与类之 间的相似度尽 4算法描述 据 挖掘这一概念 。Web数 据挖掘就是运用 量小 ,而类 内的相似 度尽 量大 。 4.1 生成最大先前引用算法 数据挖掘技术在服务器Web文档中自动发 (4)路 径分 析技 术 (Route Analysis 在生 成最大 先前引用的过 程 中 ,考 虑 现并提取有用的信息,它是数据库、信 息检 Technology)。在Web使用模式挖掘过程 中, 到 要把 原始路径 中的那些 向后 引用删 除 , 索、人工智能、机器学 习与 自然语言处理等 通过路径分析技术可 以确定 网站 的频 繁访 我们使用一个堆栈 。堆栈的特点就是 “先进 几个相关研究领域的聚合 [。目前 比较盛行 问路径 ,可 以对 频繁访 问的路径进行优化 , 先 出,后进后出”。利用堆 栈的这个特性 ,在 的分类就是根据其挖掘对象将其大致分为 并可 以在频繁访 问的路径上 放置重要 的信 删 除 向后引用时 只需要对栈顶元素判断即 三类 :Web内容挖掘、Web结构挖掘、Web使 息,如导航信 息等 ,以方便用户使用[3】。通过 可E41。具体过程是 : 用模 式挖掘 。 路径分析技术得 出的网站结构 图在模式挖 A.选取 第一个顶入栈 。第一 个项即用

文档评论(0)

jsntrgzxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档