基于语义的KNN短文本分类算法研究-郑州轻工业学院.PDFVIP

  • 11
  • 0
  • 约1.12万字
  • 约 4页
  • 2018-12-13 发布于天津
  • 举报

基于语义的KNN短文本分类算法研究-郑州轻工业学院.PDF

基于语义的KNN短文本分类算法研究-郑州轻工业学院.PDF

第27卷 第6期 郑 州 轻 工 业 学 院学 报 (自然 科 学版 ) Vol.27 No.6 2012年12月 JOURNALOFZHENGZHOUUNIVERSITYOFLIGHTINDUSTRY(NaturalScience) Dec.2012 文章编号:2095-476X(2012)06-0001-04 基于语义的KNN短文本分类算法研究 张素智, 刘婧姣 (郑州轻工业学院 计算机与通信工程学院,河南 郑州 450002) 摘要:针对短文本分类关键词特征稀疏和样本数量多,难以处理的技术难点,提出一种基于语义的 KNN短文本分类算法.该算法采用基于字的分词策略提取出短文本的特征词,结合中国知网对关键 词进行概念映射以提高短文本的语义表达,并针对短文本特点,通过使用LSA降维处理,对KNN分 类算法加以改进.实验结果表明,该算法能够有效提高短文本的分类性能. 关键词:短文本;文本分类;语义扩展;KNN分类算法 中图分类号:TP391  文献标志码:A  DOI:10.3969/j.issn.2095-476X.2012.06.001 AshorttextKNNclassificationalgorithmbasedonsemantic ZHANGSuzhi, LIUJingjiao (CollegeofComputerandCommunicationEngineering,ZhengzhouUniversityofLightIndustry,Zhengzhou450002,China) Abstract:Aimingattheproblemsofkeywordssparsefeatures,samplequantityoftheshorttextclassifica tionanddiffercultdealingwith,amethodbasedonsemanticKNNshorttextclassificationalgorithmwas presented.Thealgorithmextractsshorttextfeaturewordsbasedonthewordsegmentationstrategy,combi ningCNKItokeyforconceptmappingtoimprovetheshorttextsemanticexpression,KNNclassificational gorithmwasimprovedaccordingtothecharacteristicsofshorttextthroughapplicationofLSAdimensionali tyreduction.Theexperimentresultsshowedthatthealgorithmcaneffectivelyimprovetheshorttextclassi ficationperformance. Keywords:shorttext;textclassification;semanticexpansion;KNNclassificationalgorithm 行有效分类,将会有助于舆情预警、流行语分析、话 0 引言 题跟踪与发现等.因此如何对海量的网络短文本数 随着我国互联网的发展,微博、在线聊天记录、 据进行分类,逐渐成为近年来相关研究领域的热点. BBS标题、博客观点等各种形式的短文本迅速增多, 短文本即包含字符数量较少(通常不超过200个) [1] 并逐渐成为人们沟通交流和信息获取的一种重要 的文本,其内容简短,语言多不规范 ,所以在常 方式.短文本数量多、信息量大,包含了人们对社会 规文本分类中成熟运用的分类技术并不能较好地 各种现

文档评论(0)

1亿VIP精品文档

相关文档