Web数据挖掘综述.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据挖掘综述 象为结点.标记为边.对象由惟一的对象标记符和值组成。值可以是 河北师范大学附属中学殷占峰 原始的。如整数、字符串等,也可以是引用别的对象的复杂对象。 摘要 基于Web数据挖掘是一个结合了数据挖掘和俐的 2.Web结构挖掘。Web结构挖掘是对Web页面之间的结构进 热门研究主题。本文首先诠释了数据挖掘与Web挖掘的基本定义。 行挖掘.研究的是Web文档的链接结构.揭示蕴含在这些文档结构 中的有用模式.处理的数据是Web结构数据。整个Web空间里。有 接着详细介绍了Web数据挖掘最流行的分类:Web内容挖掘、web 用的知识不仅包含在Web页面的内容之中.而且也包台在页面的结 结构挖掘和Web访问挖掘。根据Web数据挖掘的最近研究状况,具 构之中。例如,如果我们发现一个论文页面经常被引用,或有较多 体讲述了Web数据挖掘的三种方法。最后.总结了几个研究热点。 并对Web挖掘今后的研究态势和发展方向作了简单展望。 的超链接指向它,那么这个页面一定是非常重要的。发现的这种知 关t词数据挖掘Web挖掘w唧数据关联 识可以被用来改进搜索引擎。 一、前育 3.Web访问挖掘。Web访问挖掘是对用户访问Web时在服务 器留下的访问记录进行挖掘.即用户访问Web站点的存取方式进行 当前www正在深度和广度方面飞速发展着.Internet也正在以 前所未有的速度改变着我们的生活。Web已成为信息发布、交互及 挖掘。挖掘的对象是在服务器上的包括scnHI饨Data等目志。每 获取的主要工具。Web上信息量的增长速度可谓惊人。人们迫切 当用户访问Web站点时。所访问的页面、时间、用户ID等信息在109 日志中都有相应的记录。 需要能自动从Web上发现抽取和过滤信息的工具。当我们与Web 交互时,常面临如下问题:1.查询相关信息;2.从Web数据发现潜在 Web访问挖掘可以自动发现用户存取Web的兴趣爱好(既用户 的未知信息;3.了解用户的兴趣爱好;4.信息个性化。 pr嘶le)及浏览的频繁路径。一方面Web服务器能了解他们的爱好.提 当今世界上研究的热闹领域——web挖掘能直接或间接地解 供他们感兴趣的东西。要求Web具有个性化服务的功能;另一方面,信 决上述问题。Web挖掘是数据库、数据挖掘、人工智能、信息检索、 息提供者萨望依据用户的pf06le和浏览模式,改进站点的组织性能。 自然语言理解等技术的综合应用。由于web是异质分布且不断增 四、Web数据挖掘方法 长的信息系统,对其挖掘并不是上述技术的简单综合,它需要有新 1.Web内容挖掘方法。Web页面信息主要包括文本信息和多媒 的数据模型,体系结构和算法等。 体信息。所以分为对Web页面文本信息的挖掘和对Web页面多媒体 二、数据挖掘技术概述 信息的挖掘。 1.数据挖掘的定义。数据挖掘(DATAMINING。简称DM),也称(1)对Web页面内文本信息挖掘。挖掘的目标是对页面进行镑 DISCOVERYIN 要和分类。在对页面做摘要时,对每一个页面应用传统的文体摘要 为数据库中的知识发现KDD(KNOWLEDGEDATA. BASE).是近几年来随着数据库和人工智能发展起来的一门新兴的方法可以得到相应的摘要信息。在对页面进行分类时。分类器输入 数据库技术,被视作以提取有用信息为目的的“数据簇聚”或。数据 的是一个Web页面集(训练集),再根据页面文体信息内容进行监督 产生”过程。数据为信息处理老提取新的和有用规则服务.并能够 学习,然后就可以把学成的分类器用于分类每一个输人的页萄。 根据已有的信息对实际未发生行

文档评论(0)

ltt20083 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档