- 4
- 0
- 约3.89千字
- 约 4页
- 2023-11-22 发布于广东
- 举报
基于向量空间模型的文本分类方法
文本分类是指将一组提前由专家分类的文本作为培训集,分析培训集,并使用发布的分类模式对其他文本进行分类。它主要应用于信息检索、机器翻译、自动文摘及信息过虑等。文本分类技术自从在美国国家技术标准局和美国国防高级研究计划局组织的TREC(Text Retrieval Conference)会议上被正式提出,至今已有近20多年的历史,这期间涌现 了许多分类方法,如基于统计学的支持向量机(SVM)、K-最近邻居(KNN)、朴素贝叶斯(NB)、基于连接方法的神经网络和基于规则的决策树等。文献指出,SVM、KNN和NB是最好的3种分类方法,SVM分类精度最高,但速度最慢; NB具有最快的速度,但分类精度最低; KNN的性能比较稳定,但时空效率有待提高。
现有的中文文本分类系统基本都是基于文献在20世纪70年代提出的向量空间模型VSM(Vector Space Model),基于这种模型的分类方法计算简单有效,因此得到了广泛应用,但时空效率难以提高。基于传统向量空间模型的分类方法都是将文本表示为高维空间中一个点向量,这种方法在文本表示时向量空间维数会达到上千维,高维向量运算和大量文本表示的开销是当前诸多文本分类器效率难以提高的原因所在。语言学告诉人们,文本的数量是无限的,但是组成无限文本的词语数量是有限的。如果将表示文本的特征词形式化为空间中一点向量,则向量的维数
您可能关注的文档
最近下载
- 2026广州中医药大学第一附属医院深圳龙华医院(深圳市龙华区中医院)招聘备考试题附答案详解.docx VIP
- 财通证券-历史照进现实:70年代系列百页深度研究.pdf
- 坎普尔外压超滤技术及案例分析+130623.pptx VIP
- 重庆江津法院书记员招聘考试真题库2025.docx VIP
- 智能建造技术导则.pdf VIP
- 《小熊图书馆》课件.pptx VIP
- 2026广州中医药大学第一附属医院深圳龙华医院(深圳市龙华区中医院)招聘备考题库含答案详解.docx VIP
- 水上施工作业的安全风险管理与预防措施.docx VIP
- 2026广州中医药大学第一附属医院深圳龙华医院(深圳市龙华区中医院)招聘备考题库参考答案详解.docx VIP
- 2026广州中医药大学第一附属医院深圳龙华医院(深圳市龙华区中医院)招聘备考题库带答案详解.docx VIP
原创力文档

文档评论(0)