基于关联分析的Web日志挖掘毕业设计（论文）.doc

下载文档 降价啦

14
0
约 16页
2017-09-20 发布于陕西
举报
版权申诉
保障服务

基于关联分析的Web日志挖掘毕业设计（论文）.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录摘要 1 关键词 1 Abstract 1 Keywords 1 一、Web日志挖掘 2 （一）、数据预处理 2 （二）、模式发现 4 （三）、模式分析 5 二、关联分析 5 （一）关联规则 5 （二）Apriori方法简介 7 四、实证分析 8 （一）数据预处理 8 （二）模式发现 9 （三）模式分析 10 五、个性化推荐 11 六、结束语 12 参考文献 13 附录 15 基于关联分析的Web日志挖掘摘要:web日志挖掘是web数据挖掘中的一个重要组成部分，通过从Web访问日志中发现用户的访问模式，预测用户的浏览行为。本文主要介绍了web数据挖掘的一般过程及方法，对Apriori关联分析方法作了重点阐述，并利用该方法对某网站某天的部分web日志数据进行了实证分析，得出了用户浏览模式及网页内容之间的关联规则，找到单个用户在浏览页面兴趣爱好以及群体用户的浏览习惯，继而对网站的网页规划布局提出了个性化的意见。关键词:web日志挖掘;关联分析;实证分析 Web Log Mining Based On Association Analysis Abstract: Web log mining is an important part of web data mining, finding the users access pattern in the Web access logs?,the researcher can predict the users browsing behavior.?This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori， at the same time ,we use this method to analysis a particular site’s log data to find the users’ browsing patterns and association rules between web pages ;It also finds the browsing interest of a single user and groups users’ browsing habits, all after then ,we put forward some individual suggestions on web planning. Keywords: Web log mining; Association analysis; Positive analysis 随着WWW在深度和广度上的发展，Internet也前所未有地改变着我们的生活，数据信息已经在这个时代爆炸了。但是，我们又不得不面对“人们被数据淹没,人们却饥饿于知识”的现实。随着兴起与20世纪80年代末的数据挖掘在web上的应用，从某种程度上改善了上述情况。根据所挖掘的Web 数据的类型，可以将Web 数据挖掘分为以下三类：Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)（也称为Web日志挖掘）。Web日志挖掘是指采用数据挖掘的技术，通过对Web服务器日志中大量的用户访问记录深入分析，发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识，用于分析站点的使用情况，从而辅助管理和支持决策。当前，web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。一、Web日志挖掘 Web日志挖掘主要是通过对web浏览的日志数据的分析，发现用户的浏览模式，更好地规划站点。下面是一段日志：① 2006-10-17 00:00:00②3 ③ 4 80 ④ GET ⑤/favicon.ico ⑥ Mozilla/5.0+(Windows；+U；+Windows+NT+5.1；+zh-CN；+rv：)+GeckoFirefox/。主要包括：①访问时间；②用户IP地址；③访问的URL，端口；④请求方法(“GET”、“POST”等)；⑤访问模式；⑥agent，即用户使用的操作系统类型和浏览器软件。 Web日志挖掘一般都包含以下几个过程：（一）数据预处理数据预处理是Web 日志挖掘的首要环节, 其任务是将原始日志数据转换成适合数据挖掘和模式发现所必需的格式, 预处理可以直接简化数据挖掘过程，使结果更具客观性。数据预处理包括数据净化、用户识别、会话识别