WEB数据挖掘的研究探析.docVIP

下载本文档

3
0
约3.06千字
约 7页
2018-10-11 发布于福建
举报
版权申诉

WEB数据挖掘的研究探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

WEB数据挖掘的研究探析

WEB数据挖掘的研究探析　　摘要:WEB上的数据是一种介于结构化与半结构化之间的数据,以多种形式存在,非常不利于挖掘有用的信息。当前,随着WEB站点上的信息逐步采用XML规范,给WEB数据挖掘带来了新的解决方法。　　关键词:网络数据挖掘研究　　　　1 引言　　 WEB数据挖掘就是从大量的网络数据中发现隐含的规律性的内容,提取并挖掘有用的知识。然而WEB上的数据以多种形式存在,是一种介于结构化与半结构化之间的数据,非常不利于进一步挖掘有用信息。当前,随着许多WEB站点上的信息逐步采用XML规范,给WEB数据挖掘带来了新的解决方法。　　　　2 WEB数据挖掘面临的问题　　面向WEB的数据挖掘要比面向单个数据仓库的数据挖掘要复杂的多,主要是基于以下几点原因: 　　 (1)异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。(2)分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。(3)半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。(4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。(5)多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。　　　　3 WEB 数据挖掘中的技术问题探析　　3.1 非技术因素　　在WEB数据挖掘中,出于商业目的经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步分析,我们可以从中找出真正与数据挖掘相关的的要素,具体如下: 　　3.1.1 网页相关性分析　　一些网页之间具有密切的关系,假设很多人具有a.html-〉b.html-〉c.html 这样的访问模式,则我们可以认定a.html 和c.html 之间有一定的关系,从而考虑是否在a.html 上直接加上c.html的链接。　　3.1.2 用户访问模式分析　　一般规律下,用户只要访问了网页其中的一页,则可以断定他也要访问其他的网页即按不同的用户访问模式,把网页分组得到一个一个的兴趣点。　　3.1.3 用户归类　　通过用户填写的信息把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。　　3.2 技术因素　　 WEB数据挖掘的技术因素主要有以下几点: 　　 (1) 数据处理。如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的Log 文件,二是用网络监听的办法,在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。(2)统计分析。即在数据库的基础上,针对不同的数据运行各种统计函数。(3)数据挖掘。数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,并利用这些知识动态生成网页,为用户提供访问建议。(4) 关联规则。从服务器会话中发现请求网页的相关性,可用于优化网站组织,实现网络代理中的预取功能等。(5)聚集。使用Usage Clusters把具有相似浏览模式的用户分成组,可用于电子商务应用中market segmentation和为用户提供个性化服务,使用page clusters按内容的相似性把网页分类,可用于搜索引擎和Web assistance providers为用户提供推荐链接。(6)归类。根据用户的个人资料,将其归入某一特定的类,可使用决策树、Naive Bayesian 　　Classifiers等算法。　　　　4 XML技术在WEB数据挖掘中的应用　　4.1 XML 技术简介　　 XML(eXtsible Markup Language) 是SGML(Standard General MarkupLanguage)的一个子集,近年来被IBM、Microsoft 等公司大力推崇。和HTML(Hyper Text Markup Language)类似,XML 也是一种标示语言,可提供描述结构化资料的格式,它们都可以用于可视化和用户界面标准。　　4.2 XML的主要应用　　 XML的应用主要分为文档型和数据型,具体有以下6类: 　　 (1)自定义XML+XSLT=HT