- 8
- 0
- 约1.4千字
- 约 62页
- 2017-04-21 发布于湖北
- 举报
文本挖掘综述课件精要
文本挖掘;主要内容;文本挖掘的背景;1、文本挖掘概述;文本检索应用实例;文本检索过程;文档检索基本步骤;文本挖掘与数据挖掘的区别:
文本挖掘:文档本身是半结构化的或非结构化的,无确定形式并且缺乏机器可理解的语义;
数据挖掘:其对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识
因此,数据挖掘的技术不适用于文本挖掘,或至少需要预处理。
;文本挖掘与数据挖掘的区别;文本挖掘概念;文本挖掘的任务;文本挖掘处理过程;2、文本数据分析和信息检索;2、文本数据分析和信息检索;2.1 文本检索的基本度量;信息检索的度量方式;模型质量的评价实例;2.2 文档检索方法;基于模型的检索;文本符号化;文档建模;文档建模;向量空间模型;维度权值计算方法
目前广泛采用TF/IDF权值计算方法, TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。
IDF逆文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
在完整的向量空间模型中,将TF和IDF组合在一起,形成TF-IDF度量
您可能关注的文档
最近下载
- (完整版)《机械工程测试技术基础》熊诗波课后习题答案.pdf VIP
- 2026年土木工程项目的现场勘查要素.pptx VIP
- 基于人工智能的科大讯飞ESG实践路径及其对企业绩效的影响研究.pdf
- 白山市佳合电器设备厂常规说明书.pdf VIP
- 2022年四川省南充市会考生物真题.docx VIP
- 2022年四川省南充市中考生物真题(含答案) .pdf VIP
- 2026 年行政管理(办公事务统筹)试题及答案.doc VIP
- 减振器检修手册.pdf VIP
- 第六章 菌种复壮衰退及保藏.ppt VIP
- 基于CTI教学模式与人工智能融合的小学数学课堂创新实践研究——以《速度、时间与路程》为例.docx VIP
原创力文档

文档评论(0)