软件建模与UML 第十三章.ppt

第13章 文本挖掘与Web挖掘 目录 13.1 文本挖掘概述 13.2 文本挖掘 13.3 Web挖掘 13.1 文本挖掘概述 13.1.1 文本挖掘的基本概念 13.1.2 文本特征的表示 13.1.3 文本特征的提取 13.1.1 文本挖掘的基本概念 文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中,试图在一定的理解水平上尽可能多地提取知识。 1. 概念 文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。 文本数据包括:技术报告、文本集、新闻、电子邮件、网页、用户手册等。 2. 主要任务 (1)短语提取 提取文本集中所有相关的短语 。 (2)概念提取(聚类) 对这些短语之间的关系,建立一个该文本集中的主要概念 。 (3)可视化显示和导航 从多个视角出发进行分析. 3.文本挖掘与数据挖掘 13.1.2 文本特征的表示 文本特征指的是关于文本的元数据: (1)描述性特征,例如文本的名称、日期、大小、类型等; (2)语义性特征,例如文本的作者、机构、标题、内容等。 矢量空间模型(VSM)是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量: V(d)=(t1,w1

文档评论(0)

1亿VIP精品文档

相关文档