第七章 Web挖掘技术.ppt

  1. 1、本文档共88页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chinese Academy of Science 第七章 Web挖掘技术 7.1 Web挖掘的意义 7.2 Web挖掘的分类 7.3 Web挖掘的含义 7.4 Web挖掘的数据来源 7.5 Web内容挖掘方法 7.6 Web访问信息挖掘方法 7.7 Web结构挖掘方法 7.1 Web挖掘的意义 从大量的信息中发现用户感兴趣的信息 :因特网上蕴藏着大量的信息 通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息” Web挖掘可以发现潜在的、丰富的关联信息。 7.1 Web挖掘的意义 将Web上的丰富信息转变成有用的知识: Web挖掘是面向Web数据进行分析和知识提取的。 因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息, 而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。 7.1 Web挖掘的意义 对用户进行信息个性化: 网站信息的个性化是将来的发展趋势 通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析 可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务 第七章 Web挖掘技术 7.1 Web挖掘的意义 7.2 Web挖掘的分类 7.3 Web挖掘的含义 7.4 Web挖掘的数据来源 7.5 Web内容挖掘方法 7.6 Web访问信息挖掘方法 7.7 Web结构挖掘方法 7.2 Web挖掘的分类 Web挖掘依靠它所挖掘的信息来源可以分为: Web内容挖掘(Web Content Mining): 对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。 7.2 Web挖掘的分类 Web挖掘依靠它所挖掘的信息来源可以分为: Web访问信息挖掘(Web Usage Mining): Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。 通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。 7.2 Web挖掘的分类 Web挖掘依靠它所挖掘的信息来源可以分为: Web结构挖掘(Web Structure Mining): Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。 对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。 第七章 Web挖掘技术 7.1 Web挖掘的意义 7.2 Web挖掘的分类 7.3 Web挖掘的含义 7.4 Web挖掘的数据来源 7.5 Web内容挖掘方法 7.6 Web访问信息挖掘方法 7.7 Web结构挖掘方法 Web挖掘的含义 WeB挖掘是一个看宽泛的概念,可以简单地描述为: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据 应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。 Web挖掘与信息检索 两种截然不同的观点: Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题,是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。 Web挖掘是智能化的信息检索:对于IR领域的研究人员来说, Web挖掘是IR研究向着智能化的方向发展的结果。 Web挖掘与信息检索 信息检索可能经常被说成是Web挖掘的初级阶段 是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。 Web挖掘与信息抽取 Web上的IE的研究目的是希望从众多的Web文挡中抽取可供分析的信息,与Web挖掘的关系也有不同的观点: IE是Web挖掘整个过程的一部分:这是因为Web上的数据一般是半结构化或无结构的,因此需要进行规格化的信息抽取这样的预处理。 Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏的信息抽取出来,那么Web挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。 Web挖掘与信息抽取 信息抽取经常被说成是Web挖掘的一个预处理阶段,那是因为在数据挖掘领域,Web挖掘的更广义的理解应该是一个知识提取的完整过程。 第七章 Web挖掘技术 7.1 Web挖掘的意义 7.2 Web挖掘的分类 7.3 Web挖掘的含义 7.4 Web挖掘的数据来源 7.5 Web内容挖掘方法 7.6 Web访问信息挖掘方法 7.7 Web结构挖掘方法 Web挖掘的主要数据源 Web挖掘

文档评论(0)

独角戏 + 关注
实名认证
内容提供者

本人有良好思想品德,职业道德和专业知识。

1亿VIP精品文档

相关文档