- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络日志挖掘技术数据信息分析研究
基于网络日志挖掘技术数据信息分析研究
摘 要:对网络日志挖掘技术数据信息分析的研究,是动态交互网络使用数据挖掘的一种技术实现。通过挖掘动态交互网络日志,可以查找用户访问动态交互网络的浏览方式和习惯性行为,并依据数据挖掘分析和研究动态交互网络日志记录中的规律,判断数据价值链与组织结构的适应性问题,从而提高信息查找的快速指向性和信息检索的高效性,并利用统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。
关键词:日志挖掘;数据分析;信息检索;网络日志
中图分类号:TP311.13 文献标识码:A DOI:10.15913/ki.kjycx.2015.06.068
1 日志数据挖掘
动态交互网络获取信息的过程存在站点访问的跳跃性和无序性,数据信息指向是呈布朗运动分布的。超文本链接的跳转过程具有一定的普遍性,并且还有数据存量大、数据更替快等大数据4V特点。挖掘规律即是动态交互网络用户访问信息发现的重要研究内容。动态交互网络日志挖掘是对大量用户行为和数据价值有效性的判断,该判断是经过数据的预处理、数据模式识别和模式分析3个过程实现的。
2 动态交互网络日志挖掘的过程
对于动态交互网络日志挖掘,首先要研究和分析网络日志记录信息存在的变化和特点,进而实现数据的预处理过程。另外,要识别用户信息,提高对用户价值信息的服务质量,改进动态交互网络服务系统的数据信息判断和组织结构。
2.1 数据预处理
在动态交互网络日志文件记录中,存储的是用户访问站点信息的原始记录,而原始记录的数据具有多样性和大量性,所以,直接从数据中挖掘其有效价值存在不确定性和一定的困难。在借助一定的算法和工具分析数据时,必须要对数据进行预处理。预处理过程是指对数据质量、数据的多样性和量级进行处理,这会直接影响数据挖掘的结果,还会影响数据价值存在的判断。对于数据访问量小、数据多样性单一的网络日志信息,数据处理的准确性具有非常重要的意义。日志预处理主要是通过数据净化、用户识别、会话识别和数据合并4个过程实现的。
2.2 数据模式发现
利用数据挖掘相关算法是实现对网络日志中隐藏的、重复的、大量有用的或者无用的信息进行数据模式识别的一种方式,最终发现可以理解和学习的信息。同时,用于动态交互网络的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析和依赖性建模等。
2.3 模式分析
在动态交互网络日志挖掘中,最重要的一项工作就是数据分析。它主要完成有用模式的算法发现和数据链的模式分析。在当前的电子商务系统中,模式发现和模式分析能够实现大量用户数据的价值发现,利用挖掘的有效算法,能够在日志数据快速变化的状态下分析用户的浏览状况,并依据模式分析结果改进网页内容,优化用户服务,从而提高用户的兴趣点,提升访问量,解决数据大量、快速、多样性变化的特点,以此获取有效价值数据对交互网络的影响。
3 在信息系统中的构建
3.1 网站设计
网站设计的主要内容包括以下几点:①用户访问网站方式基于http协议;②动态交互网络的服务多样性;③依据用户行为信息,挖掘有效价值链,产生具有特色的网络交互行为,而数据页面的引导表现出了便捷和快速的特点;④利用日志挖掘技术查询用户有价值信息,依据数据价值判断、推算出潜在的数据连接和页面访问指向。
3.2 系统架构
该系统主要由4个功能模块组成,即客户端访问模块、数据访问模块、价值识别模块和个性化服务模块。
3.2.1 客户端访问模块
客户端访问模块主要用于处理客户端的基本信息并识别用户,其工作内容包括客户端的登录服务、识别用户名和密码。其中,登录服务主要是完成用户信息的修改和存储。同时,用户的不可修改信息也会被存储和识别,比如MAC、IP浏览器版本号等。
3.2.2 数据访问模块
客户端被访问时会在服务器端和客户端产生日志信息,而日志信息是数据预处理和模式识别的基础。访问日志模块主要用于处理用户行为记录的各项信息,访问信息具有大量、多样和快捷的特点。日志信息包括访问某一页面的次数、访问页面的多个URL地址信息、用户行为信息的判断和大量数据保存方面的管理配置等。利用数据访问模块,可以识别和分析数据,完成预处理工作。
3.2.3 价值识别模块
网站的构成具备多网页站点间多联系、交互的特点,而网站数据具有多样性和快捷性。网站要想显示用户兴趣和行为,就要改进数据分析和识别模式。对用户在网页中停留的时间和搜索的信息内容等情况进行数据挖掘时,要结合用户参与和识别的情况,建立适合用户访问兴趣的信息推送,从而实现数据价值识别。
3.2.4 个性化服务模块
个性化服务模块是通过分析用户访问的数据分析来
您可能关注的文档
- 基于绿色建筑设计能力提升建筑学专业教学改革探索.doc
- 基于绿色建筑评价标准办公建筑设计初探.doc
- 基于绿色教育化学课程教学改革.doc
- 基于绿色教育理念构建绿色班级策略研究.doc
- 基于绿色教育理念语文课程与教学论课程建设研究.doc
- 基于绿色文明建筑未来发展方向.doc
- 基于绿色施工城市轨道交通施工及管理探讨.doc
- 基于绿色施工技术在建筑工程施工中应用分析.doc
- 基于绿色施工技能培养施工组织设计课程改革探讨.doc
- 基于绿色施工技术建筑工程施工与管理.doc
- 2025年无人机集群协同低空物流能耗降低技术方案报告.docx
- 研发部门校园招聘面试题库年份届别.docx
- 2026-2031年中国手持云台行业市场发展趋势与前景展望战略研究报告.docx
- 2025年工业余热回收技术产业链分析报告.docx
- 2025年跨境电商平台用户分层增长策略分析报告.docx
- 《2025年国产离子注入机技术成熟度与市场接受度》.docx
- 2023天府宝岛工业设计大赛川渝十佳工业设计企业评选申报表申报单位.pdf
- 初级造纸工考试试题集.docx
- 2023注会全国统一考试CPA《税法》考前自测题及答案.pdf
- 《2025年光模块技术升级驱动通信设备行业算力网络建设市场趋势》.docx
原创力文档


文档评论(0)