- 11
- 0
- 约1.12万字
- 约 4页
- 2018-12-13 发布于天津
- 举报
基于语义的KNN短文本分类算法研究-郑州轻工业学院.PDF
第27卷 第6期 郑 州 轻 工 业 学 院学 报 (自然 科 学版 ) Vol.27 No.6
2012年12月 JOURNALOFZHENGZHOUUNIVERSITYOFLIGHTINDUSTRY(NaturalScience) Dec.2012
文章编号:2095-476X(2012)06-0001-04
基于语义的KNN短文本分类算法研究
张素智, 刘婧姣
(郑州轻工业学院 计算机与通信工程学院,河南 郑州 450002)
摘要:针对短文本分类关键词特征稀疏和样本数量多,难以处理的技术难点,提出一种基于语义的
KNN短文本分类算法.该算法采用基于字的分词策略提取出短文本的特征词,结合中国知网对关键
词进行概念映射以提高短文本的语义表达,并针对短文本特点,通过使用LSA降维处理,对KNN分
类算法加以改进.实验结果表明,该算法能够有效提高短文本的分类性能.
关键词:短文本;文本分类;语义扩展;KNN分类算法
中图分类号:TP391 文献标志码:A DOI:10.3969/j.issn.2095-476X.2012.06.001
AshorttextKNNclassificationalgorithmbasedonsemantic
ZHANGSuzhi, LIUJingjiao
(CollegeofComputerandCommunicationEngineering,ZhengzhouUniversityofLightIndustry,Zhengzhou450002,China)
Abstract:Aimingattheproblemsofkeywordssparsefeatures,samplequantityoftheshorttextclassifica
tionanddiffercultdealingwith,amethodbasedonsemanticKNNshorttextclassificationalgorithmwas
presented.Thealgorithmextractsshorttextfeaturewordsbasedonthewordsegmentationstrategy,combi
ningCNKItokeyforconceptmappingtoimprovetheshorttextsemanticexpression,KNNclassificational
gorithmwasimprovedaccordingtothecharacteristicsofshorttextthroughapplicationofLSAdimensionali
tyreduction.Theexperimentresultsshowedthatthealgorithmcaneffectivelyimprovetheshorttextclassi
ficationperformance.
Keywords:shorttext;textclassification;semanticexpansion;KNNclassificationalgorithm
行有效分类,将会有助于舆情预警、流行语分析、话
0 引言
题跟踪与发现等.因此如何对海量的网络短文本数
随着我国互联网的发展,微博、在线聊天记录、 据进行分类,逐渐成为近年来相关研究领域的热点.
BBS标题、博客观点等各种形式的短文本迅速增多, 短文本即包含字符数量较少(通常不超过200个)
[1]
并逐渐成为人们沟通交流和信息获取的一种重要 的文本,其内容简短,语言多不规范 ,所以在常
方式.短文本数量多、信息量大,包含了人们对社会 规文本分类中成熟运用的分类技术并不能较好地
各种现
您可能关注的文档
最近下载
- 2025年中国跨境电商发展报告.docx VIP
- 大学物理光学复习试卷-大学物理光学复习试卷.doc VIP
- 2026人教版小学数学四年级上册期末测试卷(3套含答案解析).pdf
- 洗衣机xqs75t9288说明书.pdf VIP
- NB_T 10527-2021 煤矿立井井壁注浆施工规范.docx VIP
- SY-T 6563-2003危险化学试剂使用与管理规定.pdf VIP
- 企业单位学校守好廉洁关过好廉洁年廉洁教育PPT课件.pptx VIP
- 项目管理的组织理论课件.ppt VIP
- 统编版《道德与法治》四年级下册教学设计【全册,共2套】.docx VIP
- 物理光学物理光学复习b.pptx VIP
原创力文档

文档评论(0)