软件建模与UML 第十三章.ppt

下载文档 降价啦

2
0
约8.41千字
约 62页
2019-04-17 发布于湖北
举报
保障服务

软件建模与UML 第十三章.ppt

第13章文本挖掘与Web挖掘目录 13.1 文本挖掘概述 13.2 文本挖掘 13.3 Web挖掘 13.1 文本挖掘概述 13.1.1 文本挖掘的基本概念 13.1.2 文本特征的表示 13.1.3 文本特征的提取 13.1.1 文本挖掘的基本概念文本挖掘一词出现于1998年第十届欧洲机器学习会议上。 Kodratoff认为文本挖掘的目的是从文本集合中，试图在一定的理解水平上尽可能多地提取知识。 1. 概念文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。文本数据包括：技术报告、文本集、新闻、电子邮件、网页、用户手册等。 2. 主要任务（1）短语提取提取文本集中所有相关的短语。（2）概念提取（聚类）对这些短语之间的关系，建立一个该文本集中的主要概念。（3）可视化显示和导航从多个视角出发进行分析. 3.文本挖掘与数据挖掘 13.1.2 文本特征的表示文本特征指的是关于文本的元数据：（1）描述性特征，例如文本的名称、日期、大小、类型等；（2）语义性特征，例如文本的作者、机构、标题、内容等。矢量空间模型（VSM）是效果较好的表示文本特征的方法。每个文本d表示为其中的一个规范化特征矢量： V(d)=(t1，w1

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

软件建模与UML 第十三章.ppt