文本挖掘综述课件精要.pptVIP

  • 8
  • 0
  • 约1.4千字
  • 约 62页
  • 2017-04-21 发布于湖北
  • 举报
文本挖掘综述课件精要

文本挖掘;主要内容;文本挖掘的背景;1、文本挖掘概述;文本检索应用实例;文本检索过程;文档检索基本步骤;文本挖掘与数据挖掘的区别: 文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义; 数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识 因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。 ;文本挖掘与数据挖掘的区别;文本挖掘概念;文本挖掘的任务;文本挖掘处理过程;2、文本数据分析和信息检索;2、文本数据分析和信息检索;2.1 文本检索的基本度量;信息检索的度量方式;模型质量的评价实例;2.2 文档检索方法;基于模型的检索;文本符号化;文档建模;文档建模;向量空间模型;维度权值计算方法 目前广泛采用TF/IDF权值计算方法, TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。 IDF逆文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TF-IDF度量

文档评论(0)

1亿VIP精品文档

相关文档