第4讲文本分类技术-orsci--或科学.PPT

End 《文本分析与文本挖掘》.科学出版社.2018 (1)高维度对距离衡量的影响(当变量数越多,欧氏距离的区分能力常变得越差);(2)变量值域对距离的影响(值域越大的变量常常会在距离计算中占据主导作用,因此应先对变量进行标准化 姜维. 《文本分析与文本挖掘》. 科学出版社. 2018 * 姜维. 《文本分析与文本挖掘》. 科学出版社. 2018 * 姜维. 《文本分析与文本挖掘》. 科学出版社. 2018 * Lidstone法则 零概率、低频概率问题。 《文本分析与文本挖掘》.科学出版社.2018 朴素贝叶斯模型过程 训练:获得模型参数。 分类:利用贝叶斯公式计算各类概率。 《文本分析与文本挖掘》.科学出版社.2018 内容索引 4.1、文本的向量空间模型 4.2、文本相似度与KNN 4.3、朴素贝叶斯分类 4.4、特征补偿策略 4.5、基于支持向量机的分类 4.6、基于分类技术的歧义消解 本章小结 练习与思考 《文本分析与文本挖掘》.科学出版社.2018 “中图法”含36个类别 “卫星”常出现在“航空、航天”、“自动化技术、计算技术”类别中 而在“艺术”、“建筑科学”类别中少见甚至根本不出现 《文本分析与文本挖掘》.科学出版社.2018 数据稀疏问题-Zipf定律 《文本分析与文本挖掘》.科学出版社.2018 克服方法 (1)修改模型 (2)增大训练语料 (3)增加

文档评论(0)

1亿VIP精品文档

相关文档