Web使用的模式挖掘中路径分析技术的研究.docVIP

下载本文档

15
0
约4.24千字
约 10页
2018-10-11 发布于福建
举报
版权申诉

Web使用的模式挖掘中路径分析技术的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web使用的模式挖掘中路径分析技术的研究

Web使用的模式挖掘中路径分析技术的研究　　摘要:Web使用模式挖掘是Web数据挖掘的重要研究内容。本文详细介绍了Web使用模式挖掘中的路径分析技术，并将AprioriAll算法引入路径分析过程，对其发展前景做了合理的展望。　　关键词:Web数据挖掘Web使用模式挖掘路径分析技术　　中图分类号：TP393文献标识码：A 文章编号：1007-9416（2010）10-0028-02 　　　　1 引言　　数据挖掘（Data Mining）就是从数据库中发现隐藏在其中的、潜在的有用信息，并把大量的原始数据转换成有价值的知识的一门新兴科学。随着数据库技术的飞速发展，尤其是随着Web应用技术的不断发展和进步，Web资源以指数级模型飞速增长。面临着浩瀚无边的Web数据，人们呼唤在数据的汪洋中去伪存真、去粗存精，因此以网络数据为挖掘对象的Web数据挖掘技术应用而生[1]。　　Oren Etioni在1996年首次提出Web数据挖掘这一概念。Web数据挖掘就是运用数据挖掘技术在服务器Web文档中自动发现并提取有用的信息，它是数据库、信息检索、人工智能、机器学习与自然语言处理等几个相关研究领域的聚合[2]。目前比较盛行的分类就是根据其挖掘对象将其大致分为三类：Web内容挖掘、Web结构挖掘、Web使用模式挖掘。　　　　2 Web使用模式挖掘　　Web使用模式挖掘是在用户访问Web页面后，对服务器上留下的访问路径进行挖掘，即对用户访问Web站点的存取方式进行挖掘。其挖掘目的是在海量的Web日志数据中自动、快速地发现用户的访问模式，例如频繁访问页组、频繁访问路径、用户行为聚类等。Web使用模式挖掘常用技术有如下几种：　　（1）关联规则挖掘技术（Associate Mining Technology）。在Web数据挖掘中，关联规则挖掘就是要挖掘出用户在一个访问期间内在服务器中访问的页面、文档之间的联系。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法，从事务数据中挖掘出最大频繁访问项集，这个项集就是关联规则挖掘出来的用户访问模式。　　（2）序列模式挖掘技术（Sequence Mining Technology）。序列模式挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里，用户的访问是以时间段为单位记录的，经过数据清洗和事务识别以后是一个间断的时间序列，这些序列反映的用户行为有助于网站确认用户访问网站的兴趣所在。　　（3）分类与聚类技术（Classification Clustering）。分类规则可以挖掘Web日志中某些共同的特性，利用该特性对新添到数据库里的数据项进行分类，根据访问模式得出访问某一服务器文件的用户特性。聚类分析用于将有相似特性的用户、数据项集合到一起，聚类的目标是将大量的数据项聚集成类，使得类与类之间的相似度尽量小，而类内的相似度尽量大。　　（4）路径分析技术（Route Analysis Technology）。在Web使用模式挖掘过程中，通过路径分析技术可以确定网站的频繁访问路径，可以对频繁访问的路径进行优化，并可以在频繁访问的路径上放置重要的信息，如导航信息等，以方便用户使用[3]。通过路径分析技术得出的网站结构图在模式挖掘中非常有用。　　本文阐述的路径模式挖掘实质就是一种路径分析技术，可用来确定Web中一条频繁出现的浏览路径。　　　　3 路径模式挖掘　　3.1 概念　　在因特网上用户一次浏览中依次访问的站点形成浏览路径，从浏览路径中发现潜在的知识的过程，成为路径模式挖掘（Path Pattern Mining）。　　3.2 步骤　　（1）生成最大向前引用。由浏览过程中的每个站点构成的序列成为原始路径，既包括到达一个新页面的向前引用，也包括由于访问失败或未找到所需信息造成的向后的引用。只有向前引用是有用的信息，因此从原始路径中删除向后引用，得到一组浏览子序列，其中每个子序列是从用户的访问起点开始的最大向前引用。我们结合实例来说明，如图1所示：原始路径为：{A，B，C，D，C，B，E，F，G，F，H，A，I，J，I，K}，那么最大的向前的引用集为{{ABCD}，{ABEFG}，BEFH}，{AIJ}，{AIK}}。　　（2）从得到的最大向前引用中获取大引用序列（large reference sequence）。即在全部浏览过程出现次数超过给定阈值的序列。大引用序列的搜索从一维开始，利用迭代找到所有满足阈值的引用序列。　　（3）确定最大引用序列，即不包含在其他任何最大引用序列中的大引用序列。一个最大引用序列对应于Web中一条频繁出现的浏览路径。对上面的例子，假设{{AB}，{BE}，{AD}，