- 2
- 0
- 约6.71万字
- 约 50页
- 2018-06-07 发布于贵州
- 举报
中文短文本分类的相干技术研究
摘 要
随着搜索引擎、电子邮件、微型博客和观点评论等短文本信息在互联网范围内的大
量出现,有关短文本的相关研究逐步受到人们的关注。目前的文本分类技术多是针对长
文本进行,虽然性能较好但由于短文本字数少、数量庞大,并多数依存于网络,并不一
定适用。国内针对短文本的研究多集中在语义扩展、特征处理等方面,并没有特别深入
系统的研究。
本文对短文本的涵盖范围、特点及研究领域进行了详细的分析研究,并对相
关的研究现状和关键技术进行介绍。针对短文本特征稀疏等特点,考虑到传统的分词
会因为词汇量稀少而丢掉重要的语义信息,本文采用“字”作为短文本的特征进行
表示,并结合共现分析概念提出了基于字共现的特征提取方法。该方法在传统词
频统计的基础上加入文本中字与字之间的共现信息量,使得特征字能够更全面地表
达出短文本语义信息,通过实验证明该方法能够明显提高短文本的分类准确率。
有实验证明在诸多分类算法中,K近邻(KNN )和支持向量机(SVM )对短文本的
分类效果最好。由于短文本数量庞大,本文采用KNN分类算法并加以改进。因KNN算
法在分类前需要把所有训练文本存储起来与待测样本进行比对,计算量比较大,本文提
出了一种改进的基于近似域KNN分类方法。该方法事先对训练集中各类别进
您可能关注的文档
最近下载
- 2022年甘肃省兰州市城关区小升初数学试卷.doc VIP
- TCEIAIM 001.2-2023 风电场和光伏发电站安全管理规程 第2部分:风险分级管控.pdf VIP
- 《声学 道路表面对交通噪声影响的测量 第1部分:统计通过法》标准立项修订与发展报告.docx VIP
- 2026福建莆田市秀屿区兴秀实业有限公司招聘企业员工10人考试模拟试题及答案解析.docx VIP
- 2026年事业单位编制考试公共基础知识全真模拟试卷及答案(共十六套).docx
- 索道架设方案.doc VIP
- 支部增补委员资料模板.pdf VIP
- 腹壁切口缝合技术与缝合材料选择中国专家共识(2018版).pptx VIP
- 自动控制原理与设计第6版 [(美)GENEF.FRANKLIN,J.DAVIDPOWELL,ABBASEMAMI-NAEINI著;李中华译] 2014年版_1-50.docx VIP
- 医药代表高效拜访指南.pptx
原创力文档

文档评论(0)