- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据仓库与数据挖掘》课程作业
题目:利用Web挖掘技术构建电子商务网站
作者:
学号:
专业:
导师:
摘要:Web挖掘是数据挖掘应用于互联网的具体表现形式,也是从海量的电子商务交易信息中提取知识或者有用的信息以掌握网络客户消费习惯的重要技术手段。本文主要介绍了Web挖掘技术在电子商务中的流程和应用,并构建了一个基于Web挖掘技术的电子商务网站的架构,协助电子商务企业更好的开展商务活动。
关键词:web挖掘,电子商务,网站架构
近十年来,数据挖掘技术已经在我国取得了长足的发展。电子商务也进入了高速的发展阶段,为越来越多的人所使用,已经成为现代社会高速高效的新型商业运作模式。由于电子商务的深入发展,大量客户信息和交易信息的产生,如何利用这些数据,使之成为有用的数据,是电子商务企业的竞争点。电子商务网站是电子商务企业开展商务活动的平台,如何搭建有效的电子商务平台显得尤为重要,因此Web挖掘技术在电子商务中的应用为其提供了新的发展思路。
1.Web挖掘技术的概念
O.Etzioni[1]定义web挖掘是“利用数据挖掘技术从Web文档和服务中自动地发现和抽取信息。”也就是对文档的内容、可利用资源的使用以及资源之间关系进行分析,从Web数据中发现潜在的有用信息和先前不知道的知识的整个过程。Web挖掘是发现知识的一个迭代过程,是理解网络消费者和商家的一个重要的策略。
2.Web挖掘技术的分类[2]
按挖掘对象的不同,一般将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web日志挖掘。如图所示:
2.1.Web内容挖掘
Web内容挖掘是指对Web页面内容进行挖掘,从文本,图像,音频,视频,动画等各种形式的网络资源中发现所需的特定化信息,以实现Web资源的自动检索,提高Web数据的利用效率。Web数据分布范围很广,有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及无结构的自由文本数据信息。所以将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。
2.2.Web结构挖掘
Web结构挖掘是挖掘Web潜在的链接结构模式,找到隐藏在一个个页面之后的链接结构模型,该模型可用于网页重新分类,寻找相似的网站,获得有关不同网页间相似度及关联度的信息。这有助于用户找到指向相关主题的权威站点。Web结构挖掘可分为超链接挖掘、页面结构挖掘等。这一领域最常用的是图论中的网落分析法,典型的算法有HITS算法、PageRank和HITS改进算法,人们采用这些算法主要是计算Web页面之间的关联程度。这不仅可用于提高网上搜索引擎搜索的准确性,还可以用于挖掘网站之间的通信、相互参引关系。
2.2.3Web日志挖掘
Web日志挖掘是对Web日志站点的日志进行处理,把网络结构上的非结构化的数据组织成传统的数据挖掘方法进行处理,能够实现动态地向网络用户进行推荐的目的,在电子商务的交叉销售和售后服务有很重要的作用。
在对WWW 进行web 挖掘的过程中,常使用的web 挖掘技术有关联规则,旨在通过挖掘发现类似“90% 的顾客在一次购买活动中购买物品A 的同时会购买物品B”这样的特征,经典的算法是Apriori算法;分类分析和聚类分析,这两者之间有相似处,其结果都是具有一定特征的群组,不过其本质差别很大,分类是在划分之前有明确的划分标志,划分结果是在规划之中的,然而聚类是以“簇内最大相似、簇间最大不同”为宗旨的,它没有任何划分标志,最终可划分为几簇也不可知。序列模式与关联分析类似,它寻找的是事件之间时间上的相关性。能发现数据库中形如“在一段时间内,顾客购买物品A,然后购买物品B,而后购买物品C,则序列A-B-C出现的频率较高”之类的知识。
3.常用的挖掘技术
3.1. 统计分析(Statistical Analysis)
统计分析方法是抽取有关Web访问者知识的最常见、最普通的技术。通过分析用户会话文件,我们可以进行频率、平均值和中位数等各种不同种类的基本的描述性分析。根据用户浏览路径中的访问页面、访问时间和访问长度等变量,Web流量分析工具能定期产生各种统计分析报告。其中的统计信息包括最频繁访问的网页、每个页面的平均访问时间和网站的平均访问路径长度等。但是这些报告可能引起低层次的错误分析,例如监测未经授权的入口点或发现最常见的无效URL等。
3.2. 路径分析(Path Analysis)
路径分析就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析。最常见的一种是表示网站物理布局的网站结构图,我们可以从图中找到用户的浏览模式,发现Web
您可能关注的文档
最近下载
- GB 7409.3-2007 同步电机励磁系统 大、中型同步发电机励磁系统技术要求.pdf
- 遗体防腐整容之遗体清洁——选择遗体清洁剂.pptx VIP
- 营养指导员理论知识考核试题库(含答案).pdf VIP
- 2025年四川高考物理试卷真题答案详解及备考指导(精校打印) .pdf VIP
- 2024年广州市公安局招聘辅警真题.docx VIP
- 基孔肯雅热预防方案ppt课件.pptx
- 感恩祖辈--缅怀革命先烈主题班会课件.ppt VIP
- 棉花育种学..ppt VIP
- 正常死亡遗体防腐操作 注射防腐 皮下注射防腐 遗体防腐技术课件.pptx VIP
- 吉林省榆树市西部新城区概念性规划城市设计32pPPT课件.pptx VIP
文档评论(0)