- 4
- 0
- 约6.14万字
- 约 66页
- 2018-05-18 发布于上海
- 举报
基于web日志的增量序列模式挖掘分析-incremental sequential pattern mining analysis based on web log
摘要数据挖掘为自动和智能地把海量的数据转化成有用的信息和知识提供了强有力的手段,尤其是在网络迅速发展和电子商务竞争不断激烈的今天,数据挖掘的作用更加的凸显。序列模式挖掘是数据挖掘重要的研究课题之一,是指从序列数据库中寻找频繁子序列作为模式的知识发现过程,在很多领域都有实际的应用价值,如客户购买行为模式的分析、Web访问模式的预测、疾病诊断、自然灾害预测、DNA序列分析等。随着以人为中心的交互式应用和数据的动态更新背景的日益增多,频繁模式的动态维护需求不断增长,这些都不断地刺激人们寻找更好的解决办法来尽可能地降低挖掘的代价,因而动态数据库的增量式序列模式挖掘成为序列模式挖掘在未来的研究热点。本文基于序列模式挖掘、Web服务器日志和电子商务等相关理论知识,运用文献研究、实证分析及定性定量分析相结合的方法对电子商务网站基于服务器Web日志的增量序列模式挖掘问题进行了研究,文章主要从以下四个方面展开:第一,整理和分析先前序列模式挖掘算法的相关文献资料。介绍序列模式挖掘的概念、作用和国内外研究现状,归纳现有序列模式挖掘方法中亟待解决的问题;从基本序列模式,闭合序列模式,多维序列模式,周期序列模式等不同角度对相关理论进行了梳理,为本文增量挖掘算法的提出以及特征分析提供理论基础。第二,结合理论研究,在借鉴算法优点基础之上,提出一种适于Web 访问序列模式的增量挖掘算法。该算法采用扩展网格结构作为存储结构,具有占用空间小和获取信息便利的优势,同时能够根据数据库动态变化而变动结构。针对数据库更新、网站结构变化和最小支持度阈值调整三种影响挖掘结果的情况提出相应算法,为模型的构建奠定了基础。第三,构建基于Web 日志的增量挖掘模型。模型分为四个模块,第一块是网站结构内容分析;第二块是数据预处理;第三块是Web 访问序列模式增量挖掘算法的实现;第四块是实验结果的分析与解释。第四,本文以购物网站的真实Web 日志数据为研究对象进行实例分析。运用SQL-server 2005 实现数据的预处理过程,通过VisualC++6.0SP6软件编译算法对数据运行测试,并根据挖掘结果,从管理学的角度为购物网站设计者提出一些建议。经实验证明,基于Web日志的增量序列挖掘算法IncWTP可以适应数据库动态变化特征,利用先前已发现的信息来挖掘网站用户访问序列模式,避免重新挖掘整个数据库,并当Web 日志数据库更新或支持度阈值调整时,挖掘效果和效率均高于当前普遍使用的数据挖掘方法。关键词:Web 日志,增量数据挖掘,动态数据库,网格结构,序列模式ABSTRACTDataminingprovidesapowerfulmeansoftransferingthevastamountsofdataintouseful informationandknowledgeautomaticallyandintelligently,especiallyintoday’snetworkdevelop rapidlyande-commercecompetefiercely,theeffectofDataMiningismoreprominent.Sequential PatternMiningisaveryimportantresearchtopicinthedatamining,whichisaprocessof knowledgediscoverywhichfindingthefrequentsubsequenceasamodefromthesequence database.Ithasactualvalueinmanyfields,suchascustomerpurchasebehavioranalysis,Web sequencepatternsforcasts,Diseasediagnosis,Naturaldisastersprediction,DNAsequenceanalysis etc.Astheincreasingnumberofhuman-centeredinteractiveapplicationsanddatadynamically updatedbackground,thedemandoffrequentpatternsdynamicmaintenanceisgrowing,andthese continuetostimulatepeopletofindabettersolutiontominimizethecostofmining,soincremental sequential pattern miningbecomes thefocus of future research.ThispaperresearchesonWeblogincrementalseque
您可能关注的文档
- 基于webrtc语音引擎的会议混音技术分析-analysis of conference mixing technology based on webrtc voice engine.docx
- 机构养老问题探究——以泗水县为例-probe into the problem of institutional pension —— taking surabaya county as an example.docx
- 基于webservice的招商引资视频会议系统-video conference system of investment promotion and capital introduction based on web service.docx
- 基于webservices应用的安全机制分析-analysis of security mechanism based on web services application.docx
- 基于webservice的应用集成关键技术分析-analysis of key technologies of application integration based on web service.docx
- 基于webgis与遗传-禁忌算法木材物流网络优化-optimization of wood logistic network based on webgis and genetic - tabu algorithm.docx
- 基于webservice的bs架构的在线考试系统的设计与实现-design and implementation of bs - based online examination system based on web service.docx
- 基于webservice物流跟踪决策系统实现-implementation of logistic tracking decision system base on web service.docx
- 基于web-svg的电网信息数据展示的分析与应用-analysis and application of grid information data display based on we b - svg.docx
- 基于web代理的访问控制网关系统分析与实现-analysis and implementation of access control gateway system based on web proxy.docx
- (2026春新版)部编版八年级语文下册《第一单元》PPT课件.pptx
- 2018电力监控系统网络安全监测装置技术规范.docx
- 2022电力监控系统安全防护方案审核要点.docx
- 2014电力电缆光伏系统EN 50618欧标.docx
- (2026春新版)人教版二年级数学下册《第三单元 万以内数的认识》教案.docx
- (2026春新版)人教版二年级数学下册《第四单元 万以内的加法和减法》教案.docx
- (2026春新版)人教版二年级数学下册《综合与实践 时间在哪里》教案.docx
- (2026春新版)苏教版二年级数学下册《综合与实践 时间有多长》教案 .pdf
- (2026春新版)部编版三年级语文下册第3单元(教案).docx
- (2026春新版)部编版三年级语文下册第8单元(教案).docx
原创力文档

文档评论(0)