- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据挖掘技术的探讨
Web数据挖掘技术的探讨
摘 要: 随着Web技术的日渐成熟,使基于这一技术的Internet应用以惊人的速度向社会生活的方方面面渗透。Internet的应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。以Web服务器日志为例某些Web热点的日志数据正以每天数十兆的速度增长从这些大量数据中发现有用的重要的知识包括模式规则可视化结构等是数据挖掘与知识发现的又一重要研究和应用领域。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述。
关键词:Web挖掘 ; 文本挖掘;用户模式挖掘
一、 引言
随着Internet/Intranet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富,如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构。它有统一的格式,其中的数据为完全结构化的数据。Web上的信息则不然,主要是些大量的异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不能清楚地用数据模型来表示,因此在Web上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。文章将对Web挖掘技术做系统性的研究和探讨,并在此基础上介绍一些用于Web挖掘的工具。
二、 Web挖掘概念
Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。
通常人们往往将Web挖掘与Web上的信息检索或信息抽取等同起来,其实,它们之间是有区别的,主要体现在:(1)网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形式式的复杂模糊目标,而挖掘系统则能够从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻,将搜寻到的文档提交给用户。(2)信息检索目的是针对某一特定领域进行信息或文档的收集,可以看作是用于Web挖掘中文档分类的一种情况。(3)不是所有的信息检索都要用到数据挖掘技术,因此信息检索通常不能发现隐藏在数据后面的联系,而Web挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。尽管Web挖掘不同于信息检索,但它们在实现技术上却有很多相似之处,所以Web挖掘技术可以借鉴信息搜索技术。
Web挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而Web信息挖掘和用户访问模式挖掘是Web挖掘的两个主要方面。文章就这两个主要方面进行论述。
2.1 Web内容挖掘。
Web的内容挖掘可以说是将数据挖掘技术在网络信息处理中的应用,不同于传统的数据挖掘技术,Web挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图象数据等多种数据相融合的多媒体数据挖掘。又可将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。数据库方法和数据仓库都是采用数据抽取和转换的方法后就可以采用数据库挖掘技术进行信息挖掘。
2.2 用户模式挖掘
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。它是对现代电子商务战略的一个重要支持。面向Web用户访问模式的挖掘是关于用户行为及潜在顾客信息的发现,包括三种模式,即数据预处理、模式发现及模式分析。在此,数据挖掘的主要任务是从数据中发现模式。通常实现方法是对Server Logs、Error Logs和Cookie Logs等日志文件的分析挖掘出用户访问行为、频度和内容等信息,从而找出一定的模式和规则。
理解Web上的用户访问模式有如下好处:合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在有高度相关的站点间提供快速有效的访问通道;帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣,这样的知识将有助于商家制定促销策略。
三 Web挖掘技术研究
Web挖掘从数据挖掘发展而来,数据挖掘方法通常可分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学
文档评论(0)