- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
随着互联网发展的日趋成熟,人们淹没在充斥着各种各样信息的世界中,面 对着纷繁复杂的信息世界却无法有效的选择、吸收和消化信息,陷入了所谓的“信 息过载”。无处不在的信息资源的普遍性又增加了人们从大量繁杂信息中寻找自己 感兴趣的数据和信息的难度,用户无法有效的选择可以高效搜索自己所需信息资 源的方法和工具,又会陷入“信息迷失”现象中。此外,目前检索网上信息的主 要手段还是利用搜索引擎来检索,由于大部分搜索引擎都不具有主动性搜索的特 点,与用户的交互极少甚至没有,忽略了用户的兴趣偏好和用户需求的差异,因 此,基于搜索引擎的普遍检索无法有效的解决“信息过载”和“信息迷失”现象。
随着信息技术水平的不断发展和成熟,从海量数据中抽取潜在的、用户感兴 趣的知识成为数据挖掘领域中一个非常重要和有意义的研究课题。Web 数据挖掘 是将数据挖掘和万维网这两个领域中的多种技术和方法结合起来的热门研究课 题。一般来说,Web 挖掘的研究领域包括 Web 内容挖掘、结构挖掘和使用挖掘。 本文系统的阐述了从数据挖掘、Web 数据挖掘到 Web 日志挖掘的整个过程,
Web 数据挖掘的预处理、Web 日志模式发现以及 Web 日志模式分析等技术过程, 在简要的论述 Web 日志挖掘的概念、研究内容、关键技术和目前国内外研究状况 的基础上,针对我校网站的访问日志,采用数据挖掘技术进行数据分析,重点研 究了 Web 日志挖掘的数据预处理的改进,在理论改进的基础上提出了具体的实验 方案,并设计了基于校园网日志分析的 Web 数据挖掘系统,从而找出用户访问规 律和内容喜好,为改进校园网的网站结构和内容提供了决策支持和依据,并通过 实验验证了本研究所设计的 Web 数据挖掘系统的有效性和可行性。
论文所做的主要工作是:首先介绍了本文所做研究的现状及趋势,国内外目 前对 Web 日志挖掘研究的情况,然后阐述了数据挖掘和 Web 数据挖掘以及 Web 日志挖掘的基本概念和相互之间的联系。接下来分析了 Web 日志挖掘过程中的数 据预处理技术,基于对传统数据预处理阶段中各项任务的完成方法和利用技术进 行详尽的分析,然后提出了更新的数据与处理技术,即 Frame 页面过滤技术,并 采用基于 ID3 算法的技术改进 Frame 页面过滤技术,最后利用实际的网站模型进 行了验证,实验结果表明本文研究的算法在不破坏数据预处理精确度的前提下有 效的提高了数据与处理的效率。
关键词:Web 数据挖掘 Web 日志挖掘 数据预处理 个性化推荐
Abstract
With the development of the Internet, the sheer volume of information available on the Internet is overwhelming. This phenomenon is referred as information overload. The information diversity makes it even harder for users to find the desired information. Users are lack of effective ways to find relevant information and get lost easily, namely information bewilderment. Now, we primarily use search engines for information retrieval. Most search engines perform passive searching and regardless of the preference or specific interests of different users. Therefore, search engines cannot solve the information overload and information bewilderment problems effectively.
With the rapid development of the Internet, the amount of information increases at an exponential rate, how to find potential and interesting knowledge from enormous data is a very important and meaningful issue. Web data mining is a hot research issue w
您可能关注的文档
- 萝卜、白菜、油菜中油菜素内酯对小菜蛾生长发育的影响-农业昆虫与害虫防治专业毕业论文.docx
- 空天网络TCP拥塞控制技术研究-信息与通信工程专业毕业论文.docx
- 梅毒螺旋体粘附蛋白Tp0155、Tp0483通过激活NF-κB诱导人巨噬细胞产生炎性细胞因子-病原生物学专业毕业论文.docx
- 面向IT项目的需求分析管理的方法研究及应用-项目管理专业毕业论文.docx
- 面向访问路径的用户行为可视化分析工具的设计与实现-软件工程专业毕业论文.docx
- 马克思主义群众观及其在中国的发展-马克思主义基本原理专业毕业论文.docx
- 科学传播理论视野下的科学博客研究-科学技术哲学专业毕业论文.docx
- 黄酮类化合物不对称克莱森重排反应的研究-药物化学专业毕业论文.docx
- 空间相对轨道机动的鲁棒控制-控制科学与工程专业毕业论文.docx
- 科技在网球赛事中应用的聚散效应及机制研究-体育教育训练学专业毕业论文.docx
- 苗族传统银饰图案应用研究-设计艺术学专业毕业论文.docx
- 空化水射流结合H2O2氧化处理苯酚废水实验研究-安全技术及工程专业毕业论文.docx
- 麻醉状态下脑活动的无尺度属性:一项探索性的功能磁共振研究-心理学专业毕业论文.docx
- 美国80年代新表现主义简析-油画专业毕业论文.docx
- 面向中小型水电检修多项目管理分析-工业工程专业毕业论文.docx
- 抗枣疯病相关基因的克隆与分析-植物学专业毕业论文.docx
- 民间非营利组织财务报告问题研究-会计学专业毕业论文.docx
- 空间加密方案的改进与应用-计算机应用技术专业毕业论文.docx
- 面向不确定进化数据流聚类算法研究-计算机系统结构专业毕业论文.docx
- 罗格列酮抑制人胃癌细胞迁移转移及可能机制-消化内科专业毕业论文.docx
最近下载
- 福建省莆田市2023-2024学年八年级下学期期末数学试题(无答案).docx VIP
- (高一十班《经济法律法规》第一章练习题.doc VIP
- 《形势与政策》课件第八章 弘扬中华优秀传统文化.pptx VIP
- 第十六讲文明新路与人类命运共同体-中华民族共同体概论专家大讲堂课件.pptx VIP
- 简单保洁服务外包合同范本.docx VIP
- 博物馆建筑设计原理摘要.ppt
- BSL-2 实验室生物安全手册.pdf VIP
- 高中数学教学中存在问题及改进策略.doc VIP
- 挡墙破裂角计算.xls VIP
- 中华民族共同体概论讲稿专家版《中华民族共同体概论》大讲堂之 第十六讲 文明新路与人类命运共同体.doc VIP
文档评论(0)