面向校园网日志分析的 Web 数据挖掘技术研究-计算机技术专业毕业论文.docxVIP

下载本文档

1
0
约5.48万字
约 68页
2019-05-18 发布于上海
举报
版权申诉

面向校园网日志分析的 Web 数据挖掘技术研究-计算机技术专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要随着互联网发展的日趋成熟，人们淹没在充斥着各种各样信息的世界中，面对着纷繁复杂的信息世界却无法有效的选择、吸收和消化信息，陷入了所谓的“信息过载”。无处不在的信息资源的普遍性又增加了人们从大量繁杂信息中寻找自己感兴趣的数据和信息的难度，用户无法有效的选择可以高效搜索自己所需信息资源的方法和工具，又会陷入“信息迷失”现象中。此外，目前检索网上信息的主要手段还是利用搜索引擎来检索，由于大部分搜索引擎都不具有主动性搜索的特点，与用户的交互极少甚至没有，忽略了用户的兴趣偏好和用户需求的差异，因此，基于搜索引擎的普遍检索无法有效的解决“信息过载”和“信息迷失”现象。随着信息技术水平的不断发展和成熟，从海量数据中抽取潜在的、用户感兴趣的知识成为数据挖掘领域中一个非常重要和有意义的研究课题。Web 数据挖掘是将数据挖掘和万维网这两个领域中的多种技术和方法结合起来的热门研究课题。一般来说，Web 挖掘的研究领域包括 Web 内容挖掘、结构挖掘和使用挖掘。本文系统的阐述了从数据挖掘、Web 数据挖掘到 Web 日志挖掘的整个过程， Web 数据挖掘的预处理、Web 日志模式发现以及 Web 日志模式分析等技术过程，在简要的论述 Web 日志挖掘的概念、研究内容、关键技术和目前国内外研究状况的基础上，针对我校网站的访问日志，采用数据挖掘技术进行数据分析，重点研究了 Web 日志挖掘的数据预处理的改进，在理论改进的基础上提出了具体的实验方案，并设计了基于校园网日志分析的 Web 数据挖掘系统，从而找出用户访问规律和内容喜好，为改进校园网的网站结构和内容提供了决策支持和依据，并通过实验验证了本研究所设计的 Web 数据挖掘系统的有效性和可行性。论文所做的主要工作是：首先介绍了本文所做研究的现状及趋势，国内外目前对 Web 日志挖掘研究的情况，然后阐述了数据挖掘和 Web 数据挖掘以及 Web 日志挖掘的基本概念和相互之间的联系。接下来分析了 Web 日志挖掘过程中的数据预处理技术，基于对传统数据预处理阶段中各项任务的完成方法和利用技术进行详尽的分析，然后提出了更新的数据与处理技术，即 Frame 页面过滤技术，并采用基于 ID3 算法的技术改进 Frame 页面过滤技术，最后利用实际的网站模型进行了验证，实验结果表明本文研究的算法在不破坏数据预处理精确度的前提下有效的提高了数据与处理的效率。关键词：Web 数据挖掘 Web 日志挖掘数据预处理个性化推荐 Abstract With the development of the Internet, the sheer volume of information available on the Internet is overwhelming. This phenomenon is referred as information overload. The information diversity makes it even harder for users to find the desired information. Users are lack of effective ways to find relevant information and get lost easily, namely information bewilderment. Now, we primarily use search engines for information retrieval. Most search engines perform passive searching and regardless of the preference or specific interests of different users. Therefore, search engines cannot solve the information overload and information bewilderment problems effectively. With the rapid development of the Internet, the amount of information increases at an exponential rate, how to find potential and interesting knowledge from enormous data is a very important and meaningful issue. Web data mining is a hot research issue w