文本挖掘PPT课件.pptxVIP

下载本文档

94
0
约4.97千字
约 48页
2022-03-09 发布于湖北
举报

文本挖掘PPT课件.pptx

第5章文本挖掘 5.1 文本挖掘基础 1 文本挖掘将数据挖掘的成果用于分析以自然语言描述的文本，这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text). 利用文本切分技术，抽取文本特征，将文本数据转化为能描述文本内容的结构化数据，然后利用聚类、分类技术和关联分析等数据挖掘技术发现新的概念和获取相应的关系。 2 文本挖掘与数据挖掘的区别文本挖掘：文档本身是半结构化的或非结构化的，无确定形式并且缺乏机器可理解的语义。数据挖掘：其对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识。数据挖掘的技术不适用于文本挖掘，或至少需要预处理。 3 文本挖掘的过程预处理特征抽取特征选择文本分类文本聚类模型评价 4 文本特征表示特征表示是指以一定的特征项如词条或描述来代表文档信息。特征表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型等。向量空间模型 VSM中，将每个文本文档看成是一组词条（T1， T2， T3，…，Tn）构成，对于每一词条Ti，根据其在文档中的重要程度赋予一定的权值，可以将其看成一个n 维坐标系，W1， W2， …， Wn为对应的坐标值，因此每一篇文档都可以映射为由一组词条矢量张成的向量空间中的一点，对于所有待挖掘的文档都用词条特征矢量（T1，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本挖掘PPT课件.pptxVIP