- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘与电子商务
[摘要] 在电子商务中,根据客户的访问数据挖掘出有价值的信息,进而划分客户群体和发现潜在的客户,从而提升业绩,对电子商务网站有重要的意义。Web日志挖掘是数据挖掘在Web页面上的应用,文章对Web日志挖掘进行了介绍,给出了Web日志挖掘的步骤和方法,对Web日子挖掘工具进行了分析,并介绍了其在电子商务网站中的应用。
[关键词] 电子商务 数据挖掘 Web日志挖掘
一、引言
随着计算机技术、通信技术和网络技术的飞速发展,电子商务的发展也有了越来越好的技术平台,许多公司都建立了自己的网站,这是公司的门户和电子商务进行的所在。Web数据挖掘是当前最前沿的研究领域,是把Internet和数据挖掘结合起来的一种新兴技术。Web数据挖掘是知识发现的特定步骤,也是最核心的部分。Web日志挖掘是Web挖掘的重要内容,其技术和方法在电子商务中有着巨大的应用空间和应用价值。如发现有价值的信息、寻找潜在客户和提供个性化服务等。
二、Web挖掘及Web日志挖掘
Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。根据挖掘的对象不同,Web挖掘可分为Web内容挖掘、Web结构挖掘和Web日志挖掘。
1.Web内容挖掘
Web内容挖掘主要从Web文档的内容中抽取出有用的知识。由于Web文档的绝大部分内容是以文本的形式存在,所以Web内容挖掘主要针对的是Web文档的文本部分,文本挖掘主要包括对Web文档文本的总结、分类、聚类、关联分析等。除了文本挖掘以外,Web内容挖掘还包括Web上的声音、图形、图像信息的挖掘、数据库中的数据挖掘和信息获取等。
2.Web结构挖掘
Web结构挖掘主要通过Web页的组织结构和超链接关系以及Web文档自身的结构信息(如Title, Heading, Anchor标记等)推导出Web内容以外的知识,可分为超链挖掘、内部结构挖掘和URL挖掘。
3.Web日志挖掘
Web日志挖掘即Web使用记录挖掘,是从用户的访问记录中抽取具有意义的模式。其数据源有服务器的日志、用户注册数据、跟踪文件的数据记录、用户访问期间的事务、用户查询、书签数据和鼠标移动点击的信息。Web日志记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。Web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设、增加个性化服务等。
三、Web日志挖掘的步骤
Web日志挖掘步骤主要分为源数据收集、数据预处理、模式发现、模式分析4个阶段。
1.源数据收集
源数据收集主要是Web日志文件的收集。对于一个电子商务网站来说,经过一段时间后,用户会在网站上积累大量有用的信息(如访问日志、注册信息、需求信息、定单信息、交流信息等),采用Web 日志挖掘技术就可以充分利用这些有用信息,帮助电子商务网站的建设和发展。
Web日志文件主要包括以下3种类型:服务器日志文件、错误日志文件和Cookies。
2.数据预处理
Web日志挖掘首先要对日志中的原始数据进行预处理,因为从用户的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理。因此,需要通过日志清理,去除无用的记录。预处理过程是保证Web日志挖掘质量的关键步骤,下面我们来阐述数据预处理的过程。
(1)数据净化。指删除 Web服务器日志中与挖掘算法无关的数据。大多数情况,只有日志中 HTML文件与用户会话相关,所以通过检查URL 的后缀删除认为不相关的数据。
(2)识别用户。由于本地缓存、代理服务器和防火墙的存在,使得识别用户的任务变得很复杂,可以使用一些启发式规则帮助识别用户。
(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面,我们可以获得他在网站中的访问行为和浏览兴趣。
(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录。如果当前请求页与用户上一次请求页之间没有超文本链接,那么用户很可能使用了浏览器上的“BACK”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。
3.模式发现
模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及
您可能关注的文档
- 2009年农一师五团棉花新品种(系)生产示范试验.doc
- 2011年扬州市艾滋病筛查实验室质量考评结果分析.doc
- Ⅱ型糖尿病飞行员患者经非药物治疗恢复飞行.doc
- AutoCAD与模具设计.doc
- A市2008年~2010年医院消毒效果监测结果分析.doc
- Beagle犬脊神经根组织化学染色的实验研究.doc
- CAD技术在建筑给排水工程设计中的应用前景.doc
- CAE在塑料光学零件注射成型中的应用.doc
- CAI课件在水产食品学教学中的应用研究.doc
- CNTF、PDGF在成年猫背根节的分布.doc
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
最近下载
- 悬挑脚手架、落地脚手架安全专项施工方案.doc VIP
- 分级护理制度精编PPT课件.pptx VIP
- 梁德清体育活动等级量表(PARS-3)及评定标准.doc VIP
- 建筑施工技术(千年土木 小筑拾遗)知到课后答案智慧树章节测试答案2025年春潍坊工程职业学院.docx VIP
- ABB.ACS580替换550指南了解.pdf VIP
- 2025年公需课《人工智能赋能制造业高质量发展》试题及答案.doc VIP
- 建筑施工技术(千年土木 小筑拾遗)智慧树知到期末考试答案章节答案2024年潍坊工程职业学院.docx VIP
- 2023兖矿能源定向委培考试.pdf
- 潮汕工夫茶调研报告.docx VIP
- 生活中的物理问题“生活中的物理”探究.pptx VIP
文档评论(0)