Webmining演示文件修改版.ppt

Webmining演示文件修改版

Web数据挖掘 Web数据挖掘(Web Data Mining) 定义 利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。 指从大量的Web文档集合C中发现隐含模式P的过程: C-P Web挖掘与传统数据挖掘 Web挖掘与Web信息检索 Web挖掘分类 Web内容挖掘 Web结构挖掘 Web使用挖掘 Web内容挖掘 什么是Web内容挖掘 从网络的内容、数据、文档中发现有用信息的过程。 网络信息资源由文本、图象、音频、视频等数据组成,因而Web内容挖掘是一种多媒体数据挖掘。 挖掘策略 利用搜索引擎技术直接挖掘文档的内容; 在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。 面临问题 挖掘算法效率和可扩展性问题 信息遗漏及噪声数据的处理问题 私有数据保护问题 数据安全问题等 Web内容挖掘 主要应用研究内容 文本摘要 文本分类 文本聚类 关联分析 分布分析 趋势预测 Web内容挖掘 文本摘要 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。 有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。 Web内容挖掘 文本分类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。 Yahoo!采用

文档评论(0)

1亿VIP精品文档

相关文档