文本挖掘PPT课件.pptxVIP

  • 94
  • 0
  • 约4.97千字
  • 约 48页
  • 2022-03-09 发布于湖北
  • 举报
第5章 文本挖掘 5.1 文本挖掘基础 1 文本挖掘 将数据挖掘的成果用于分析以自然语言描述 的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text). 利用文本切分技术,抽取文本特征,将文本数据 转化为能描述文本内容的结构化数据,然后利 用聚类、分类技术和关联分析等数据挖掘技术 发现新的概念和获取相应的关系。 2 文本挖掘与数据挖掘的区别 文本挖掘:文档本身是半结构化的或非结构化 的,无确定形式并且缺乏机器可理解的语义。 数据挖掘:其对象以数据库中的结构化数据为主 ,并利用关系表等存储结构来发现知识。数据 挖掘的技术不适用于文本挖掘,或至少需要预 处理。 3 文本挖掘的过程 预处理 特征抽取 特征选择 文本分类 文本聚类 模型评价 4 文本特征表示 特征表示是指以一定的特征项如词条或 描述来代表文档信息。特征表示模型有 多种,常用的有布尔逻辑型、向量空间 型、概率型等。 向量空间模型 VSM中,将每个文本文档看成是一组词条(T1, T2, T3,…,Tn)构成,对于每一词条Ti,根据其在文档 中的重要程度赋予一定的权值,可以将其看成一个n 维坐标系,W1, W2, …, Wn为对应的坐标值,因 此每一篇文档都可以映射为由一组词条矢量张成的 向量空间中的一点,对于所有待挖掘的文档都用词 条特征矢量(T1,

文档评论(0)

1亿VIP精品文档

相关文档