- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关联规则的Web日志挖掘技术分析-计算机应用技术专业论文
PAGE
PAGE IV
practice.
Keywords:Data mining, Data preprocessing,Frequent Item,Web log mining, User access patterns
目 录
摘 要 I
ABSTRACT II
1 绪论 1
1.1 问题的提出 1
1.2 研究现状 1
1.3 论文研究的主要内容 3
2 相关概念和技术 5
2.1 数据挖掘概述 5
2.1.1 数据挖掘和知识发现 5
2.1.2 数据挖掘模式 6
HYPERLINK \l _TOC_250009 2.2 WEB 挖掘的定义 9
HYPERLINK \l _TOC_250008 2.3 WEB 挖掘的分类 9
HYPERLINK \l _TOC_250007 Web 内容挖掘 10
HYPERLINK \l _TOC_250006 Web 结构挖掘 11
HYPERLINK \l _TOC_250005 Web 使用挖掘 11
HYPERLINK \l _TOC_250004 2.4 WEB 挖掘的特点 15
HYPERLINK \l _TOC_250003 2.5 WEB 挖掘面临的挑战 15
2.6 本章小结 16
3 WEB 日志挖掘与数据预处理 17
HYPERLINK \l _TOC_250002 WEB 日志挖掘的数据准备 17
HYPERLINK \l _TOC_250001 3.1.1Web 数据源 17
3.1.2 数据建模 19
HYPERLINK \l _TOC_250000 WEB 日志预处理 20
3.2.1 数据清理 20
3.2.2 用户识别 22
3.2.3 会话识别 23
3.2.4 事务识别 25
3.2.5 格式化 27
3.3 实验分析 28
3.4 本章小结 29
4 用户频繁访问模式的挖掘 30
4.1 基本概念 30
4.1.1 关联规则 30
4.1.2 频繁访问模式 33
4.2 类 APRIORI 算法 34
4.2.1 Apriori 算法基本思想与算法分析 34
4. 2.2 类 Apriori 算法 35
4.3 基于图结构候选集生成算法 SCG 37
4.3.1 算法的思想及实现 37
4.3.2 程序框图 39
4.4 实验分析 43
4.5 本章小结 46
5 原型系统设计与实现 48
5.1 系统功能结构设计 48
5.2 系统的开发环境 49
5.3 系统实现 49
5.3.1 主界面 49
5.3.2 数据预处理 49
5.3.3 数据挖掘 52
5.3.4 挖掘结果及分析 52
5.4 本章小结 54
6 总结和展望 55
6.1 总结 55
6.2 将来的工作 55
致 谢 56
参 考 文 献 57
附录:作者在攻读硕士学位期间发表的论文 61
PAGE
PAGE 10
1 绪论
1.1 问题的提出
60年代,大的物理流伴随着大信息流,传统的文件方式不能适应信息处理的 需求,因此出现了数据库技术。90年代,人类积累的数据量以高于每月15% (或每 年513倍)的速度增加,数据海洋不能产生决策意志,为了进行决策,人们不断地扩 大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖 掘技术[1],以便从数据库中发现知识。数据挖掘技术包括特征、分类、关联、聚类、 偏差、时间序列、趋势分析等。20世纪90年代以来,Internet得到了飞速的发展, 使得WWW成为了全球最大、最方便的信息集散地,积聚了海量的信息,成为人们 工作与学习的最大支持平台。据估计,Web已经发展成为了拥有3亿页面的分布式 信息空间,而且这个数字仍以每4至6个月翻一番的速度增加。在这些海量的、异 构的Web信息资源中,蕴含着具有巨大潜在价值的知识。然而,Internet是一个具 有开放性、动态性和异构性的全球分布式网络,资源分布很分散,且没有统一的 管理和结构,这就导致了信息获取的困难,如何从数以亿计的页面中发现需要的 内容,如何合理有效的组织网站的页面链接结构,如何将用户、网页进行合理聚 类,以提供个性化服务,如何对使用有限资源的用户实现信息的预取,成了困扰 网络用户的一大难题,即所谓的Rich Data Poor Information(数据爆炸但知识贫乏) 问题,这也是人们迫切希望解决的问题。人们迫切需要能够从Web上快速、有效地 发现资
您可能关注的文档
- 基于公共平台的医疗服务产品族设计及评价研究社会医学与卫生事业管理专业论文.docx
- 基于公共控制信道的认知无线多跳网络MAC协议设计-通信与信息系统专业论文.docx
- 基于公共服务均等化的弱势群体信息权益保障研究-图书情报与档案管理专业论文.docx
- 基于公共服务均等化视角下的基础教育财政支出分析-产业经济学专业论文.docx
- 基于公共服务的非政府组织发展研究——以重庆市青年志愿者活动为例行政管理专业论文.docx
- 基于公共服务平台的汽车回收处置信息服务技术研究-计算机系统结构专业论文.docx
- 基于公共管理视角的纳税遵从研究-公共管理专业论文.docx
- 基于公共管理的保障性住房制度研究-土地资源管理专业论文.docx
- 基于公共艺术手法提升城市空间活力探讨-城市规划与设计专业论文.docx
- 基于公共电话网的电梯安全呼叫系统研究-控制理论与控制工程专业论文.docx
- 8 黄山奇石(第二课时)课件(共22张PPT).pptx
- 22《纸船和风筝》教学课件(共31张PPT).pptx
- 17 松鼠 课件(共23张PPT).pptx
- 23《海底世界》课件(共28张PPT).pptx
- 21《大自然的声音》课件(共18张PPT).pptx
- 第12课《词四首——江城子 密州出猎》课件 2025—2026学年统编版语文九年级下册.pptx
- 第2课《济南的冬天》课件(共42张PPT) 2024—2025学年统编版语文七年级上册.pptx
- 17 跳水 第二课时 课件(共18张PPT).pptx
- 第六单元课外古诗词诵读《过松源晨炊漆公、约客》课件 统编版语文七年级下册.pptx
- 统编版六年级语文上册 22《文言文二则》课件(共27张PPT).pptx
原创力文档


文档评论(0)