- 94
- 0
- 约4.97千字
- 约 48页
- 2022-03-09 发布于湖北
- 举报
第5章 文本挖掘
5.1 文本挖掘基础
1 文本挖掘
将数据挖掘的成果用于分析以自然语言描述 的文本,这种方法被称为文本挖掘(Text
Mining)或文本知识发现(Knowledge Discovery in Text).
利用文本切分技术,抽取文本特征,将文本数据 转化为能描述文本内容的结构化数据,然后利 用聚类、分类技术和关联分析等数据挖掘技术 发现新的概念和获取相应的关系。
2 文本挖掘与数据挖掘的区别
文本挖掘:文档本身是半结构化的或非结构化 的,无确定形式并且缺乏机器可理解的语义。
数据挖掘:其对象以数据库中的结构化数据为主 ,并利用关系表等存储结构来发现知识。数据 挖掘的技术不适用于文本挖掘,或至少需要预 处理。
3 文本挖掘的过程
预处理
特征抽取
特征选择
文本分类
文本聚类
模型评价
4 文本特征表示
特征表示是指以一定的特征项如词条或 描述来代表文档信息。特征表示模型有 多种,常用的有布尔逻辑型、向量空间 型、概率型等。
向量空间模型
VSM中,将每个文本文档看成是一组词条(T1, T2, T3,…,Tn)构成,对于每一词条Ti,根据其在文档 中的重要程度赋予一定的权值,可以将其看成一个n 维坐标系,W1, W2, …, Wn为对应的坐标值,因 此每一篇文档都可以映射为由一组词条矢量张成的 向量空间中的一点,对于所有待挖掘的文档都用词
条特征矢量(T1,
您可能关注的文档
最近下载
- 2026年口腔执业医师《口腔医学综合》章节习题《口腔解剖生理学》《牙体牙髓病学》《牙周病学》.docx VIP
- 11CJ33 通风采光天窗.docx VIP
- 摩托车科目一考试题库(江苏版).docx VIP
- E1-1 施工单位工程竣工报告.xlsx VIP
- (高清版)G-B∕T 37526-2019 太阳能资源评估方法.pdf VIP
- 部编版二年级语文下册全册教案(2026春).pdf VIP
- Q∕CAM-266-2022 汽车禁用物质说明.pdf VIP
- (已压缩)长沙岳麓区观沙岭片区初中项目修建性详细规划建筑方案设计(1).pdf VIP
- 第4课 西汉与东汉——统一多民族封建国家的巩固 课件(共26张PPT) 2025年统编版高中历史 必修中外历史纲要(上)(含音频+视频).pptx VIP
- 2026年西藏昌都遴选考试试题及答案.docx VIP
原创力文档

文档评论(0)