- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据在电子商务技术中使用分析
Web数据在电子商务技术中使用分析
【摘要】在信息爆炸的电子商务时代,利用Web数据挖掘可以迅速从海量数据中获取有利于商业运作和提高竞争力的信息。文章在介绍Web数据挖掘概念和常用技术的基础上,阐述了其在零售业电子商务领域的应用。
【关键词】电子商务 Web数据挖掘 零售业 关联 聚类 分类
Web数据挖掘是数据挖掘技术在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学等多个领域,是一项综合技术。对于零售企业,通过Web数据挖掘,不仅为企业做出正确的商业决策提供强有力的工具,也为商家更加深入地了解客户需求信息和购物行为特征提供了可能性,从而开展有针对性的电子商务。
一、Web数据挖掘
Web数据挖掘是针对包括Web页面内容、站点拓扑结构、用户访问信息、用户注册信息及电子商务交易信息等在内的各种Web数据,在一定基础上应用数据挖掘方法以发现有用的隐含知识的过程。Web挖掘可分为三类:Web内容挖掘(Web Content Mining)、Web使用挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。
Web内容挖掘。Web内容挖掘是指从Web页面内容及其描述信息中获取有价值的知识或模式的过程,它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化的、半结构化的。Web内容挖掘可以完成概括某些特定文本内容、对文本集合进行分类或聚类,以及进行Web文档趋势预测等工作。多媒体信息挖掘的挖掘对象则是Web上的音频、视频数据和图像等。
Web使用挖掘。Web使用挖掘目的是从用户访问Web时在服务器上留下的访问记录中抽取感兴趣的知识。挖掘对象主要是服务器上的日志信息,包括服务器日志、代理服务器日志和客户端的Cookie等。通过分析关于用户访问和交互的信息,发现用户感兴趣的模式,更好地理解用户的行为,从而改进站点的结构,为用户提供个性化的服务。
Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识,Web结构包括不同网页之间的超链接结构和一个网页内部的树形结构,以及文档URL中的目录路径结构等。通过文档之间的超链接,可以挖掘出文档间关联关系所代表的信息,从而帮助发现用户相关主题的权威页面和进行页面等级划分;通过分析Web网页内部树形结构,可以发现与给定页面集合相关的其它页面。
二、使用的Web数据挖掘技术
首先,关联规则。关联规则主要关注事务内在关系。关联规则挖掘就是挖掘出用户在一个访问期间(session)从服务器上访问的页面/文件之间的关系,找出在某次服务器会话中最经常一起出现的相关页面。挖掘发现的关联规则往往是指支持度超过预设阀值的一组访问网页,这些网页之间可能并不存在直接的引用(Reference)关系。
关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对股票涨跌的分析。以市场货篮这个典型例子分析关联规则。“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶“(面包+黄油+牛奶)。用于规则发现的对象主要是事务型数据库,分析的是售货数据,也称货篮数据。以下给出的数学模型用来描述关联规则的发现问题:增长、STEM、AIS、DHP等算法分类发现-Y在事务集D上的支持度support(X∪Y)=s。可信度为c,如果c=support(X∪Y)*100/support(X),则说明D中包含X的事务中有c%的事务同时也包含了Y。可信度说明了蕴涵的强度,而支持度说明了规则中所出现模式的频率。具有高可信度和强支持度的规则称为“强规则”(strong rules)。关联规则发现任务的本质是要在数据库中发现强关联规则。利用这些关联规则可以了解客户的行为,这对于改进零售业等商业活动的决策很有帮助。
其次,序列模式。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小值信度c和最小支持度s。序列模式主要关注事务之间的关系。序列模式数据挖掘就是挖掘出交易集之间有时间序列关系的模式,在访问日志中发现所有满足用户规定的最小支持度s的大序列模式,寻找用户普遍访问的规律(例如通过序列模式分析,能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A),预测
您可能关注的文档
最近下载
- 24J113-1 内隔墙-轻质条板(一).docx
- 法律尽职的调查报告范本.docx VIP
- (2025秋)人教版二年级数学上册全册教案(新教材).pdf
- 40页《华为LTC流程(线索、机会、合同)》课件.pptx
- 医学影像学第十五章 良、恶性肿瘤 第一节 原发性肝癌的介入治疗.ppt VIP
- (高清版)DBJ33∕T 1309-2023 人民防空工程维护管理技术标准.pdf VIP
- 医学影像学第十五章 良、恶性肿瘤 第三节 良性肿瘤的介入治疗.ppt VIP
- 湖北联昌新材料有限公司年产6万吨含氟精细材料、医药中间体及副产项目环境影响评价报告书.pdf VIP
- 05系列建筑标准设计图集:05S4 消防工程.docx VIP
- ASME B18.29.1-2010 螺旋线圈螺纹插入-自由运行和螺纹锁定(英寸系列).pdf VIP
文档评论(0)