基于网页日志的频繁模式挖掘.docVIP

下载本文档

1
0
约1.01万字
约 14页
2018-03-10 发布于北京
举报
版权申诉

基于网页日志的频繁模式挖掘.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于网页日志的频繁模式挖掘　　摘要:频繁模式挖掘应用广泛,是数据挖掘中的一个重点研究领域,频繁模式挖掘应用的其中一个领域就是基于网页日志的数据挖掘。在网页日志中发现频繁模式的目的是获得用户的网络浏览行为模式,这些信息可以为广告设计以及创建动态用户日志提供参考。从网页数据挖掘的角度研究了三种频繁模式挖掘方式,这三种方式分别是:网页设置、网页序列以及网页图片挖掘。　　关键词:模式挖掘; 序列挖掘; 图形挖掘; 网页日志挖掘　　中图分类号:TP29 文献标识码:A 　　文章编号:1004-373X(2010)09-0180-04 　　　　Frequent Pattern Mining in Web Log Data 　　SHEN Ming, DENG Yu-fen, ZHANG Bo 　　(Navy Oceanic Mapping and Survey Institute, Tianjing 300061, China) 　　Abstract: Frequent pattern mining is an important research field in data mining with wide application, one of the fields is the data mining based on Web log data. The aim of discovering frequent patterns in Web log data is to obtain information ??about the navigational behavior of the users, the information can provide references for advertising purpose and creating dynamic user profiles. Three pattern mining approaches are investigated from the Web data mining, the different patterns in Web log mining are page set, page sequence and page graphs mining. 　　Keywords: pattern mining; sequence mining; graph mining; Web log mining 　　　　0 引言　　万维网提供了大量对用户有用的数据,不同类型的数据应该组织成能够被不同用户有效使用的形式,因此,基于网页的数据挖掘技术吸引了越来越多的研究人员。已有几种数据挖掘方法应用于挖掘隐藏在网页中的信息,当然算法需要进一步调整以适应网页数据的属性。而且,不只是数据挖掘算法,还有人工智能,信息获取,以及自然语言处理技术都可以在数据挖掘中得到有效应用。因此,网页挖掘技术已经伸展到自动研究领域。　　本文主要介绍基于网页日志的几种不同类型的数据挖掘技术,这些挖掘技术用于挖掘隐藏在网页中的不同的频繁模式。包括:频繁模式、序列态以及树态。对于每个问题,都有相应的算法,用于高效挖掘相应的模态。频繁模式(高频网页)挖掘采用文献[1]中介绍的频繁模式算法。频繁模式算法的主要优势在于可以快速挖掘低频繁模式页,对于更高频繁模式的挖掘效果也得到了增强。序列挖掘算法采用文献[2]中介绍的SM-树算法,其中可以有效发现树型模式的算法称之为PD树算法。两种算法都可以充分利用自动化理论发现其中的频繁模式。SM树算法采用状态机发现序列模式,PD树算法采用叠加自动机确定在树形数据库中三种模式。　　1 网页挖掘任务　　网页挖掘包括:从网页数据中发现和提取信息;提供有效的机制以使数据访问更加有效和匹配;从用户行为中发现信息,用户行为信息一般存储在网页日志中,比如网页缓存[3]。因此网页挖掘可以根据需要挖掘的信息分为?┤?类[4-6],分别是:网页内容挖掘,网页结构挖掘和网页使用方式挖掘。网页挖掘的相关详细研究请参考?┪南?[4-5,7-8]。　　网页内容挖掘的任务是在线发现有用信息。对用户有用的信息包括:多媒体数据,结构化(XML)和半结构化数据(HTML),以及非结构化数据(如文本)。网页内容挖掘的目的是建立一个帮助用户发现他们需要的信息的机制。网页内容挖掘包括:组织和聚类文档,提供相应的引擎以便用户通过相关的关键词信息、分类信息以及内容信息等获取不同的文档。　　网页结构挖掘[9-12]的目的是发现内嵌于网页中超链接。实际上,网页内容挖掘关注文档内部信息,网页结构挖掘则关注文档之间的链接结构信息,其目的是为了标识相关主题的权威或者中心网