文本挖掘综述课件精要.pptVIP

下载本文档

8
0
约1.4千字
约 62页
2017-04-21 发布于湖北
举报

文本挖掘综述课件精要.ppt

文本挖掘综述课件精要

文本挖掘;主要内容;文本挖掘的背景;1、文本挖掘概述;文本检索应用实例;文本检索过程;文档检索基本步骤;文本挖掘与数据挖掘的区别：文本挖掘：文档本身是半结构化的或非结构化的，无确定形式并且缺乏机器可理解的语义；数据挖掘：其对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识因此，数据挖掘的技术不适用于文本挖掘，或至少需要预处理。 ;文本挖掘与数据挖掘的区别;文本挖掘概念;文本挖掘的任务;文本挖掘处理过程;2、文本数据分析和信息检索;2、文本数据分析和信息检索;2.1 文本检索的基本度量;信息检索的度量方式;模型质量的评价实例;2.2 文档检索方法;基于模型的检索;文本符号化;文档建模;文档建模;向量空间模型;维度权值计算方法目前广泛采用TF/IDF权值计算方法， TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF逆文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。在完整的向量空间模型中，将TF和IDF组合在一起，形成TF-IDF度量

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本挖掘综述课件精要.pptVIP