企业网站的Ｗｅｂ使用挖掘.docVIP

下载本文档

0
0
约4.76千字
约 8页
2018-04-07 发布于北京
举报
版权申诉

企业网站的Ｗｅｂ使用挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

企业网站的Ｗｅｂ使用挖掘　　摘要：本文从介绍企业网站的web使用挖掘的意义入手，着重分析了web使用挖掘的数据源，探讨了Web使用挖掘的常用技术，以及Web 使用挖掘的过程，企业网站的Web使用挖掘应具备的功能。　　关键词：企业网站；web使用挖掘；数据源；信息获取　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2008)30-0534-02 　　　　Web Usage Mining ofEnterprises Web Site 　　ZHANG Chun-ming 　　(Liaoning University of International Business and Economics,Dalian 116052, China) 　　Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining. 　　Key words: enterprises Web site, Web usage mining, data source, Web crawling 　　　　1 企业网站的Web 使用挖掘的意义　　　　对企业网站的Web使用信息进行挖掘已经不是对服务器的简单统计（如页面访问次数，日平均访问人数，最受欢迎页面等信息）因其已经不能满足企业网站设计人员对站点结构和内容优化的需求。通过分析企业网站的日志文件，可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等，以便其合理、有效地优化站点的结构和内容，最终为用户提供一个方便快捷的信息获取环境和交易环境。　　　　2 企业网站的Web 使用挖掘的数据源　　　　Web使用挖掘通过分析用户在网上冲浪的过程或行为所产生的数据，来发现用户访问Web的行为模式。　　Web使用挖掘所挖掘的数据除了来自Web日志文件，还有其他的数据来源，例如：用户实时访问信息、代理服务器日志、浏览器日志、用户数据、注册数据、用户会话或交易、Cookies、书签数据以及任何用户同Web进行交互所产生的其他数据。　　　　3 企业网站的Web 使用挖掘的常用技术　　　　3.1 路经分析　　路径分析（Path Analysis）就是要从图中确定最频繁的路径访问模式或大的参考序列。我们可以用许多不同类型的图形来进行路径分析，因为图形表达了各网页间定义的关系。最常见的一种是表示网站物理布局的网站结构图，它把网页当作结点，把页面间的超文本链接当作连接的边。还可以根据网页类型来生成其他图形，在这类图形中，边代表页面间的相似度，或者在边上给出使用该超链接的人数。　　3.2 关联规则　　关联规则(Association Rules)最早是由Agrawal 等人提出的，最初提出的动机是针对购物篮分析问题提出的，其目的是为了发现交易数据库中不同商品之间的联系规则，这些规则刻画了顾客购买行为模式，可以用来指导商家科学地安排进货、库存以及货架设计等。　　3.3 序列模式　　序列模式(Sequential Patterns) 在时间戳有序的事务集中，序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。　　序列模式挖掘最早是由Agrawal等人提出的，它的最初动机是想通过带有交易时间属性的交易数据库中发现频繁项目序列以发现某一段时间内客户的购买活动规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方面。　　3.4 分类聚类　　分类算法首先建立一个模型，通过对训练数据的分析，给出预定数据类集或概念集的特征描述，然后抽取未知数据对象的自身特性，根据模型中的定义，将其划分到相对应的类别中。　　聚类(Clustering)是将数据对象分组成为多个类或簇(Cluster)，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。相异度是根据描述对象的属性值来计算的[。　　3.5 信息获取技术　　信息获取是指从网络收集数据的过程。它是进行后续信息处理、信息服务的基础。在大规模内容计算中，信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web（万维网-World Wide Web）的信息采集（Web Crawling，简称WC），即根据Web协议，直接从Web上采集或下