- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据挖掘技术应用.pdf
引言I n t e r n e t 给人类带来了巨大的变革, 随着I n t e r n e t 的进一步发展和完善, 各种基于I n t e r n e t 的应用业务也如雨后春笋般的发展起来, 例如网上商店、网上银行、远程教育、远程医疗等。毫无疑问未来的商战战场将是I n t e r n e t 。同时, 我们也应该看到I n t e r n e t 在给我们带来机遇的同时也带来了挑战, 它使得WWW 上的一些主要工作, 例如We b站点设计、We b服务、We b服务设计、We b站点的导航设计、电子商务等工作变得更为复杂更为繁重。对于网站经营方来说, 他们需要更好的自动辅助设计工具, 可以根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构, 改进服务, 开展有针对性的电子商务以更好的满足访问者的需求。解决这种需求的一个有利的工具就是We b数据挖掘, 即将数据挖掘的思想和方法应用到We b上, 进行We b挖掘, 挖掘出有用的信息。1 . We b数据挖掘概述We b挖掘是一项综合技术, 涉及We b 、数据挖掘、计算机语言学、信息学等多个领域。We b挖掘就是从We b文档、We b活动中抽取感兴趣的、潜在的有用模式和隐藏信息。我们从更为一般的角度出发, 对We b挖掘作如下定义。定义1 ( We b挖掘)We b挖掘是指从大量We b 文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入, p看作输出, 那么We b 挖掘的过程就是从输入到输出的一个映射ξ: C →p
1 . 1与传统的数据挖掘相比较1 . 1 . 1数据源具有很强的动态性。w e b是一个不断变化的、动态更新的系统,w e b上的数据信息也是不断更新的。因此,其数据源具有很强的动态性。1 . 1 . 2挖掘目的的模糊性。w e b上有成千上万的用户,而每个用户的背景、使用挖掘的目的和兴趣度都不同,大多数用户对自己的挖掘主题和应用只有一个肤浅的认识和了解,并不能提出一个明确的目标。所以挖掘目的是模糊的、不明确的。1 . 1 . 3数据类型的多态性。w e b上的数据既有数值型数据,也有布尔型数据,还有描述性数据以及w e b特有的数据(如I P地址)。新数据类型的出现,必然要对传统的数据挖掘方法进行补充和扩展,才能进行有效的数据挖掘。1 . 1 . 4数据信息的分布性、多维性。1 . 2We b数据的特点We b技术做为I n t e r n e t 飞速发展的产物, 对信息在社会中的传播起到了很重要的作用, 分布于各We b站点上的数据有其自身的特点,
主要的可以归纳为以下几点:
1 . 2 . 1数据量巨大。I n t e r n e t 把分布于世界不同位置的电脑( 服务器)连接了起来, 每个电脑上都存有丰富的数据, 这些数据涉及各种不同的行业和领域, 又由于连接于I n t e r n e t 的电脑数量非常巨大, 所以We b站点中的数据量也非常巨大。1 . 2 . 2异构数据库环境。从数据库研究的角度来看, We b网站上的所有信息也可以看作是一个比普通数据库更大、更复杂的数据库。每一个We b站点都可以看作是一个数据源, 由于各站点是相互独立的, 之间除了可以互相访问之外并没有任何关系, 所以每个站点之间的信息及信息组织方式都是不相同的, 这就构成了一个巨大的异构数据库环境。要对这些数据进行分析, 必须要解决各站点之间异构数据的集成问题, 提供给用户一个统一的视图, 才可能从巨大的数据资源中获取有用的信息。
您可能关注的文档
最近下载
- 【语文】新高二新课预习:人皆有不忍人之心(专题讲解+针对训练).pdf VIP
- 拟为承包本标段工程设立的组织机构图.doc VIP
- 3Done校本课程汇报.pptx VIP
- 食品质量安全管理-全套PPT课件.pptx
- 汽车各部件工作原理图解.doc VIP
- 2025年安徽省高考历史试卷真题(含答案解析 ).pdf
- 北师大版四年级上册数学全册课时练(一课一练).pdf VIP
- Unit 4 Helping in the community单元整体教学设计(共六课时)2025-2026学年度人教PEP英语四年级上册.docx VIP
- Q-CR 562.1-2018铁路隧道防排水材料 第1部分:防水板(OCR).pdf
- 2024版完整版道路交通安全知识培训课件 .pdf VIP
文档评论(0)