- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 PAGE
第 PAGE 1 页 共 NUMPAGES 1 页
免责声明:图文来源网络征集,版权归原作者所有。若侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除!谢谢!
Web日志数据分析系统研究
1Web日志数据分析模型的设计思想
本论文设计平台通过对web日志文件分析,统计出哪个页面最受欢迎,访问者来自哪里,访问时段分布情况等。分析结果生成HTML代码,最终通过浏览器以页面的形式将各种报表呈现在用户面前。其中要用到目前比较常用的ASP技术,由于要将海量的日志数据存入,所以还要用到SQL-Server这个功能强大的数据库。
1.1系统的体系结构
Web日志数据分析系统的主要用户是一般企业网站或个人网站管理员,目前常见的网络开发模式共有3种体系结构:两层Client/Server(C/S)体系结构;三层Client/Server/Database(C/S/D)体系结构;三层Browser/Server/Database(B/S/D)体系结构。综合考虑本系统的用户群特点及这三种体系结构特点,最终采用的体系结构是目前国际上流行的“Browser/WebServer/Database”即三层网络结构模型。这种体系结构简单实用,客户端只要采用标准浏览器与网络进行连接就可以了。
1.2系统功能模块设计
系统功能模块是系统与用户交互的接口,本系统包括:数据预处理模块、基本分析模块、智能分析模块和可视化模块,系统功能模块.数据预处理模块:该模块主要功能是首先去掉原先存放在关系数据库中的部分没有用的原始日志,然后设置日志文件格式、采样方法,依据包含替换规则对数据进行净化,再将该数据导入源数据库,形成页面映射表信息,最后形成用户表。基本分析模块:该模块主要是对网站的访问情况进行以下6方面的统计汇总,即时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎模块。智能分析模块:该模块主要功能是利用关联规则对Web站点的页面之间的链接关系和站点结构进行分析,构建一个新的Web站点拓扑结构,寻有关联的客户群体,开展有针对性和个性化的电子商务活动。
2Web日志数据分析系统功能的实现
2.1数据收集
由于本系统是对Web日志的分析,所以数据收集部分的工作实际上就是对日志的收集工作,所以最重要得一点是网站的管理者允许对其日志文件进行研究,在同意对日志文件保密的前提下,笔者从电脑商网中国IT商务门户()获取了一段时间的网站日志文件以此作为分析对象。
2.2数据预处理
数据的预处理过程是将Web日志整理成适合数据挖掘的数据模型。整个挖掘预处理过程分为数据净化、用户识别、会话识别、路径补充、事务识别5个步骤。
2.3智能分析模块实现
我们利用了Apriori算法的思想,但同时对APriori算法进行了改造,采用了改进的APriori算法进行频繁路径挖掘。改进Apriori是受到APriori算法的启发,但它适合频繁路径的挖掘。
2.4基本分析模块实现
基本分析可以分为两个方面,一是网站整体的访问统计,另一方面是具体网页的访问分析。整体分析可以统计用户数、点击数,分析客户端信息等等;对具体网页可以统计其访问量,以分析其受欢迎程度,也可表示其重要程度。这些工作的数据来源是预处理中数据清理阶段产生的源数据库和整个预处理阶段后产生的用户事务数据库,实现方法也比较简单,一般都是简单的统计分析处理。基本分析模块由时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎分析模块6个模块组成。本文以时段分析模块为例进行阐述。根据日志中的日期域(data)、时间域(time)以及所花时间域(time-taken)可以统计出每天哪个时段的访问人数和具体逗留时间,每个小时访问量的变化,通过一天中每小时的访问数可以得出站点哪个时间段的访问人数最多是访问高峰期,进而分析出访问人群的职业和上网习惯等相关信息。
Web日志数据分析是internet信息处理的一个重要应用,目前我们只是实现了一些简单的功能,还可以对WEB日志的分析处理上进行某些更详细的深入分析,譬如可以根据访问者的登录时间、访问页面、停留时间等信息进行统计分析,然后制定个性化的电子商务营销策略,帮助电子商务网站在最短的时间内抓住最有效的客户。还可根据以往时间段的访问人数统计,对网站未来几天或者某个时间段的访问流量进行预测。
您可能关注的文档
最近下载
- 2024盐雾试验标准.pdf VIP
- 2015水利安全解析27 (3).doc VIP
- 钢轨探伤——任务4.2钢轨焊缝轨头探伤.pptx VIP
- 特科纳TECHNAL幕墙系统GEODE MX 52 SSG BG 设计与加工手册.pdf VIP
- 挚驱S2系列伺服说明书V220.pdf
- DBJ04_T307-2025 住宅小区配套供电工程技术规程.docx VIP
- 甘肃刘家峡水电厂#5机励磁系统模型及参数测试及PSS试验结.ppt VIP
- 初中数学课堂等待时间与学生学习心理研究论文.docx
- 特科纳TECHNAL幕墙系统SPINAL MY 62 加工手册.pdf VIP
- 10立方双层油罐图纸.pdf VIP
我们是专业写作机构,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告,实施方案,商业计划书,社会稳定风险评估报告,社会稳定风险分析报告,成果鉴定,项目建议书,申请报告,技术报告,初步设计评估报告,可行性研究评估报告,资金申请报告,实施方案评估报告
文档评论(0)