基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约5.3万字
约 65页
2019-02-26 发布于上海
举报
版权申诉

基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文

PAGE PAGE IV practice. Keywords：Data mining， Data preprocessing，Frequent Item，Web log mining， User access patterns 目录摘要 I ABSTRACT II 1 绪论 1 1.1 问题的提出 1 1.2 研究现状 1 1.3 论文研究的主要内容 3 2 相关概念和技术 5 2.1 数据挖掘概述 5 2.1.1 数据挖掘和知识发现 5 2.1.2 数据挖掘模式 6 HYPERLINK \l _TOC_250009 2.2 WEB 挖掘的定义 9 HYPERLINK \l _TOC_250008 2.3 WEB 挖掘的分类 9 HYPERLINK \l _TOC_250007 Web 内容挖掘 10 HYPERLINK \l _TOC_250006 Web 结构挖掘 11 HYPERLINK \l _TOC_250005 Web 使用挖掘 11 HYPERLINK \l _TOC_250004 2.4 WEB 挖掘的特点 15 HYPERLINK \l _TOC_250003 2.5 WEB 挖掘面临的挑战 15 2.6 本章小结 16 3 WEB 日志挖掘与数据预处理 17 HYPERLINK \l _TOC_250002 WEB 日志挖掘的数据准备 17 HYPERLINK \l _TOC_250001 3.1.1Web 数据源 17 3.1.2 数据建模 19 HYPERLINK \l _TOC_250000 WEB 日志预处理 20 3.2.1 数据清理 20 3.2.2 用户识别 22 3.2.3 会话识别 23 3.2.4 事务识别 25 3.2.5 格式化 27 3.3 实验分析 28 3.4 本章小结 29 4 用户频繁访问模式的挖掘 30 4.1 基本概念 30 4.1.1 关联规则 30 4.1.2 频繁访问模式 33 4.2 类 APRIORI 算法 34 4.2.1 Apriori 算法基本思想与算法分析 34 4. 2.2 类 Apriori 算法 35 4.3 基于图结构候选集生成算法 SCG 37 4.3.1 算法的思想及实现 37 4.3.2 程序框图 39 4.4 实验分析 43 4.5 本章小结 46 5 原型系统设计与实现 48 5.1 系统功能结构设计 48 5.2 系统的开发环境 49 5.3 系统实现 49 5.3.1 主界面 49 5.3.2 数据预处理 49 5.3.3 数据挖掘 52 5.3.4 挖掘结果及分析 52 5.4 本章小结 54 6 总结和展望 55 6.1 总结 55 6.2 将来的工作 55 致谢 56 参考文献 57 附录：作者在攻读硕士学位期间发表的论文 61 PAGE PAGE 10 1 绪论 1.1 问题的提出 60年代，大的物理流伴随着大信息流，传统的文件方式不能适应信息处理的需求，因此出现了数据库技术。90年代，人类积累的数据量以高于每月15% (或每年513倍)的速度增加，数据海洋不能产生决策意志，为了进行决策，人们不断地扩大数据库能力，搜集海量数据，但这使得决策者更难于决策，因此出现了数据挖掘技术[1]，以便从数据库中发现知识。数据挖掘技术包括特征、分类、关联、聚类、偏差、时间序列、趋势分析等。20世纪90年代以来，Internet得到了飞速的发展，使得WWW成为了全球最大、最方便的信息集散地，积聚了海量的信息，成为人们工作与学习的最大支持平台。据估计，Web已经发展成为了拥有3亿页面的分布式信息空间，而且这个数字仍以每4至6个月翻一番的速度增加。在这些海量的、异构的Web信息资源中，蕴含着具有巨大潜在价值的知识。然而，Internet是一个具有开放性、动态性和异构性的全球分布式网络，资源分布很分散，且没有统一的管理和结构，这就导致了信息获取的困难，如何从数以亿计的页面中发现需要的内容，如何合理有效的组织网站的页面链接结构，如何将用户、网页进行合理聚类，以提供个性化服务，如何对使用有限资源的用户实现信息的预取，成了困扰网络用户的一大难题，即所谓的Rich Data Poor Information(数据爆炸但知识贫乏) 问题，这也是人们迫切希望解决的问题。人们迫切需要能够从Web上快速、有效地发现资