Web数据挖掘技术研究综述.docVIP

下载本文档

7
0
约7.4千字
约 11页
2018-03-16 发布于北京
举报
版权申诉

Web数据挖掘技术研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web数据挖掘技术研究综述　　摘要:随着WWW网上可利用信息呈现爆炸性的增长,人们发现快速有效地访问相关信息正变得越来越困难。正是在这种情况下,Web数据挖掘技术应运而生。文中首先给出了Web挖掘的定义,深入分析了Web挖掘的特点及分类方法,然后对Web挖掘中最新研究进展状况作了详细的阐述,并探讨了Web挖掘的未来发展方向。　　关键词:数据挖掘;Web挖掘;分类;研究　　中图分类号:TP391文献标识码:A 文章编号:1009-3044(2009)36-10163-03 　　Review of Research on the Web- based Data Mining Technology 　　LI Jia-lin 　　(Nanjing Institute of Industry Technology, Nanjing 210046, China) 　　Abstract: With the explosive growth of knowledge available on the World Wide Web,it becomes much more difficult for users to access relevant information efficiently.Just in this case,Web data minging technology arises at the historic mement. This articlegive a definition of Web mining firstly. After a thorough analysis of the characteristics of Web mining and classification methods, It also expounds the details of the newest progress of the Web mining research and the direction of future development. 　　Key words: data mining; Web mining; classification; research 　　目前,Internet已经发展成为一个巨大的、分布广泛和全球性的信息服务中心,然而随着Internet上的信息量的成倍增长,人们在如此繁杂巨量的信息源面前往往感到无所适从:信息过量难以消化;信息形式不一致、难以统一处理;难以快速、准确地获得有价值的网络信息;如何理解已有的历史数据并将其用于预测未来的行为;如何从这些海量数据中发现知识等等。数据挖掘技术自20世纪90年代产生以来,已成功地应用于传统的数据库领域。人们对于数据挖掘在Internet信息处理上的技术也作了许多相应的研究,并形成了数据挖掘的一个重要分支――Web数据挖掘。　　Web是一个巨大的、广泛分布、高度异构、半结构化的信息仓库,同时也是一个巨大的文档累积的集合,包括超链接信息、访问及使用信息。Web数据挖掘起源于数据挖掘,目的在于可以处理非结构化的数据,Web数据的非结构化这一显著特征使Web数据挖掘更加复杂。通过Web数据挖掘,我们可以从数以亿计存储着大量多种多样信息的Web页面及链接和用户对页面的访问信息中挖掘出我们需要的有用知识。　　1 Web挖掘定义　　Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术。不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,其定义也各有其侧重点。例如,有学者认为,Web数据挖掘是从大量的Web文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知、有潜在应用价值的、非平凡的模式(Pattern)的过程[1]。也有学者从更为一般的角度出发,对Web挖掘作如下定义: 　　Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→p[2]。　　尽管Web挖掘的定义有很多,但Web挖掘技术从一开始就是面向应用的,因此从应用角度上来说,我们可以认为,Web挖掘就是采用数据挖掘等信息处理技术,从Web信息资源以及Web使用记录中发掘对特定用户感兴趣的,有用的信息或知识的过程,其结果可以为用户决策所使用。　　由于Web挖掘从数据挖掘技术发展而来,其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,Web挖掘在挖掘的对象、挖掘所得到的模式等方面有许多独特之处。通过 Web挖掘,人们可将Web上的文档进行分类、寻找文档主题、汇总搜索结果,使用户在Internet上查找信息更加全面准确。对We