WebminingWeb挖掘基础商业智能课件.ppt

Web挖掘基础 提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 Web日志挖掘 Web 挖掘的挑战 Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection ?Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 Web挖掘与IR Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 Web挖掘是智能化的IR,IR出现早,技术成熟。 Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P 。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。 Web挖掘分类 Web内容挖掘 基于网页内容或其描述中抽取知识的过程。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。 日志的预处理 Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Web文本挖掘的方法 文本

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档