面向校园网日志分析的Web数据挖掘技术研究-计算机技术专业毕业论文.docxVIP

下载本文档

9
0
约5.1万字
约 66页
2019-05-18 发布于上海
举报
版权申诉

面向校园网日志分析的Web数据挖掘技术研究-计算机技术专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录摘要 1 ABSTRACT 4 目录 1 第一章绪论 1 1.1 研究背景及意义 1 1.2 国内外研究现状 2 1.2.1 国外研究状况 2 1.2.2 国内研究现状 4 1.3 本文主要研究内容和意义 5 1.3.1 本文主要工作 5 1.3.2 本文工作意义 5 1.4 本文篇章结构 6 第二章 WEB 数据挖掘研究 9 2.1 数据挖掘理论 9 2.1.1 数据挖掘的概念 9 2.1.2 数据挖掘的功能 10 2.1.3 数据挖掘常用算法 11 2.2 WEB 数据挖掘理论 13 2.2.1 WEB 数据挖掘概念 13 2.2.2 WEB 数据挖掘的分类 13 2.2.3 WEB 挖掘发展 15 2.3 WEB 日志挖掘理论 17 2.3.1 WEB 日志挖掘概念 17 2.3.2 WEB 日志挖掘实现过程 17 第三章 WEB 数据挖掘相关技术研究 21 3.1 数据获取 21 3.2 数据预处理 23 3.2.1 数据清理 23 3.2.2 用户识别 24 3.2.3 会话识别 24 3.2.4 路径补充 25 3.2.5 事物识别 25 3.3 模式发现 26 3.4 模式分析 26 3.4 本章小结 27 第四章 WEB 数据挖掘预处理的改进 29 4.1 数据获取与数据分析 29 4.2 预处理中的 FRAME 页面过滤技术 31 4.3 基于 ID3 算法的 FRAME 页面过滤 34 4.4 预处理中改进的会话识别算法 37 4.4.1 优化访问时间阈值的会话识别 37 4.4.2 实验结果与分析 39 4.5 本章小结 41 第五章校园网日志挖掘系统的设计与实现 43 5.1 系统原型设计 43 5.1.1 系统总体设计 43 5.1.2 系统模块功能 44 5.2 模式发现模块设计与实现 44 5.2.1 多元预测模型 45 5.2.2 模型构造与预测算法 45 5.2.3 实验结果与分析 48 5.3 系统实现运行 51 5.4 校园网网站改进意见 53 5.5 本章小结 56 第六章结论和未来研究展望 57 6.1 全文总结 57 6.2 研究展望 57 致谢 59 参考文献 61 第一章绪论第一章绪论 PAGE 1 PAGE 10面向校园网日志分析的 PAGE 10 面向校园网日志分析的 Web 数据挖掘技术研究第一章绪论 1.1 研究背景及意义随着 Internet 技术的发展完善和其应用近年来的迅速增长，中国互联网用户的数量正在呈现爆炸性的增长趋势，来自中国互联网中心的调查报告显示了中国网民的数量基本上没半年的时间就会翻一番，而且随着中国网民数量的迅速增加，也带来了互联网更为深刻的变化：Internet 应用的领域也在急速的扩张。由早期的作为娱乐性质的互联网而逐渐的进入到居民的工作、日常生活和社会交往的方方面面，特别是在大众传媒领域，Internet 已经有逐步的取代报纸、广播和电视这些传统的大众媒介的趋势，并日益呈现出其不可替代性。纷繁复杂的信息正随着 Internet 的发展成熟而以几何级数的速度迅速膨胀，早在 2006 年雅虎就宣布其搜索引擎数据库中已经存在的网页个数达到了 200 亿个。目前，基于 Internet 的远程教育、电子商务以及搜索引擎等都已经成为了公众获取各种各样重要信息的重要技术之一，网络应用的范围已经扩展到各行各业。然而，由于互联网信息资源的开放性和分布性的特点，使得互联网自身的三个固有缺点越来越明显的阻碍公众对于网络信息资源的获取和利用，这三个特点是：（1）Internet 上可使用的信息资源是分布在世界各地的不同站点上的、无组织性的、结构形式各异的；（2）由于数据和信息服务的类型在逐日的变化，信息和服务的数量在逐日的大量增加，因而使得信息的可使用性以及信息本身的可靠性变得不稳定；（3）信息由于其自身信息资源的动态变化和潜在有用信息的安全性、数据更新和保存问题，导致了信息的模糊性和不确定性，甚至带来了错误的信息。所以人们在面对纷繁复杂的信息资源时，陷入了“信息过载”和“信息迷失”的陷阱之中无法自拔，并且由于搜索引擎自身存在的缺陷而无法有效的解决上述两个问题[1]。 20 世纪 90 年代，伴随着 Internet 在信息服务、电子商务（或电子政务）和在线服务系统等领域的广泛的应用，大量的企业为了更好的宣传自己的产品和服务、更好的开展电子商务活动，而投入巨额的资产用于自己网站的建立，或者利用部分资金在其他人的网站上宣传自己的产品和服务。为了更好的了解自己企业投资产生的效益和资金的投资利用率情况，以期获得更好的利润和更多的商业机会，改