基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文.docxVIP

基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文

PAGE PAGE IV practice. Keywords:Data mining, Data preprocessing,Frequent Item,Web log mining, User access patterns 目 录 摘 要 I ABSTRACT II 1 绪论 1 1.1 问题的提出 1 1.2 研究现状 1 1.3 论文研究的主要内容 3 2 相关概念和技术 5 2.1 数据挖掘概述 5 2.1.1 数据挖掘和知识发现 5 2.1.2 数据挖掘模式 6 HYPERLINK \l _TOC_250009 2.2 WEB 挖掘的定义 9 HYPERLINK \l _TOC_250008 2.3 WEB 挖掘的分类 9 HYPERLINK \l _TOC_250007 Web 内容挖掘 10 HYPERLINK \l _TOC_250006 Web 结构挖掘 11 HYPERLINK \l _TOC_250005 Web 使用挖掘 11 HYPERLINK \l _TOC_250004 2.4 WEB 挖掘的特点 15 HYPERLINK \l _TOC_250003 2.5 WEB 挖掘面临的挑战 15 2.6 本章小结 16 3 WEB 日志挖掘与数据预处理 17 HYPERLINK \l _TOC_250002 WEB 日志挖掘的数据准备 17 HYPERLINK \l _TOC_250001 3.1.1Web 数据源 17 3.1.2 数据建模 19 HYPERLINK \l _TOC_250000 WEB 日志预处理 20 3.2.1 数据清理 20 3.2.2 用户识别 22 3.2.3 会话识别 23 3.2.4 事务识别 25 3.2.5 格式化 27 3.3 实验分析 28 3.4 本章小结 29 4 用户频繁访问模式的挖掘 30 4.1 基本概念 30 4.1.1 关联规则 30 4.1.2 频繁访问模式 33 4.2 类 APRIORI 算法 34 4.2.1 Apriori 算法基本思想与算法分析 34 4. 2.2 类 Apriori 算法 35 4.3 基于图结构候选集生成算法 SCG 37 4.3.1 算法的思想及实现 37 4.3.2 程序框图 39 4.4 实验分析 43 4.5 本章小结 46 5 原型系统设计与实现 48 5.1 系统功能结构设计 48 5.2 系统的开发环境 49 5.3 系统实现 49 5.3.1 主界面 49 5.3.2 数据预处理 49 5.3.3 数据挖掘 52 5.3.4 挖掘结果及分析 52 5.4 本章小结 54 6 总结和展望 55 6.1 总结 55 6.2 将来的工作 55 致 谢 56 参 考 文 献 57 附录:作者在攻读硕士学位期间发表的论文 61 PAGE PAGE 10 1 绪论 1.1 问题的提出 60年代,大的物理流伴随着大信息流,传统的文件方式不能适应信息处理的 需求,因此出现了数据库技术。90年代,人类积累的数据量以高于每月15% (或每 年513倍)的速度增加,数据海洋不能产生决策意志,为了进行决策,人们不断地扩 大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖 掘技术[1],以便从数据库中发现知识。数据挖掘技术包括特征、分类、关联、聚类、 偏差、时间序列、趋势分析等。20世纪90年代以来,Internet得到了飞速的发展, 使得WWW成为了全球最大、最方便的信息集散地,积聚了海量的信息,成为人们 工作与学习的最大支持平台。据估计,Web已经发展成为了拥有3亿页面的分布式 信息空间,而且这个数字仍以每4至6个月翻一番的速度增加。在这些海量的、异 构的Web信息资源中,蕴含着具有巨大潜在价值的知识。然而,Internet是一个具 有开放性、动态性和异构性的全球分布式网络,资源分布很分散,且没有统一的 管理和结构,这就导致了信息获取的困难,如何从数以亿计的页面中发现需要的 内容,如何合理有效的组织网站的页面链接结构,如何将用户、网页进行合理聚 类,以提供个性化服务,如何对使用有限资源的用户实现信息的预取,成了困扰 网络用户的一大难题,即所谓的Rich Data Poor Information(数据爆炸但知识贫乏) 问题,这也是人们迫切希望解决的问题。人们迫切需要能够从Web上快速、有效地 发现资

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档