- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第27卷 第6期 郑 州 轻 工 业 学 院 学 报 (自然 科 学 版 ) Vo1.27 No.6
2012年 l2月 JOURNAL0FZHENGZHOUUNIVERSITY0FLIGHTINDUSTRY(NaturalScience) Dec.2012
文章编号:2095—476X(2012)06—0001—04
基于语义的KNN短文本分类算法研究
张素智, 刘婧姣
(郑州轻工业学院 计算机与通信工程学院,河南 郑州 450002)
摘要:针对短文本分类关键词特征稀疏和样本数量多,难 以处理的技术难点,提出一种基于语义的
KNN短文本分类算法.该算法采用基于字的分词策略提取出短文本的特征词,结合中国知网对关键
词进行概念映射以提高短文本的语义表达,并针对短文本特点,通过使用LSA降维处理,对KNN分
类算法加以改进.实验结果表明,该算法能够有效提高短文本的分类性能.
关键词:短文本;文本分类;语义扩展;KNN分类算法
中图分类号:TP391 文献标志码 :A DOI:10.3969/j.issn.2095—476X.2012.06.001
A shorttextKNN classificationalgorithm basedonsemantic
ZHANGSu-zhi, LIUJing-jiao
(CollegeofComputerandCommunicationEngineering,ZhengzhouUniversityofLightIndustry,Zhengzhou450002,China)
Abstract:Aimingattheproblemsofkeywordssparsefeatures,samplequantityoftheshorttextclassifica-
tionanddiffercuh dealingwith,amethodbasedon semanticKNN short textclassification algorithm was
presented.Thealgorithm extractsshorttextfeaturewordsbasedonthewordsegmentationstrategy,combi—
ningCNKItokeyforconceptmappingtoimprovetheshorttextsemanticexpression,KNN classificational-
gorithm wasimprovedaccordingtothecharacteristicsofshorttextthroughapplicationofLSA dimensionali—
tyreduction.Theexperimentresultsshowedthatthealgorithm caneffectivelyimprovetheshorttextclassi-
ficationperformance.
Keywords:shorttext;textclassification;semanticexpansion;KNN classificationalgorithm
行有效分类,将会有助于舆情预警、流行语分析、话
0 引言
题跟踪与发现等.因此如何对海量的网络短文本数
随着我 国互联网的发展,微博、在线聊天记录、 据进行分类,逐渐成为近年来相关研究领域的热点.
BBS标题、博客观点等各种形式的短文本迅速增多, 短文本即包含字符数量较少(通常不超过200个)
并逐渐成为人们沟通交流和信息获取的一种重要 的文本,其 内容简短,语言多不规范 ¨J,所 以在常
方式.短文本数量多、信息量大,包含了人们对社会 规文本分类中成熟运用的分类技术并不能较好地
各种现象的评价反映,话题涉及政治、经济、娱乐、 适用于短文本分类.短文本分类面临的难点主要
军事、生活
您可能关注的文档
最近下载
- 人民版劳动教育四年级上册全册教学课件.ppt
- 三年级上册道德与法治课件-第一单-快乐学习-单元梳理-部编版(共28张PPT).pptx VIP
- 蛋白质工程蛋白质设计课件.ppt VIP
- Haier海尔洗衣机XQB100-M21JDB使用说明书手册参数图解图示pdf电子版下载.pdf VIP
- 提高住院患者大小便标本送检率PDCA.pptx VIP
- 2025年建设应急避难广场的可行性研究分析报告.docx
- 2025年扬中锂电铜箔项目可行性研究报告.docx
- 2025年中国注射用环磷腺苷项目创业计划书.docx
- 2025年可行性研究报告怎么写3.docx
- 2022年江苏省安全员C1证(机械安全员)考试题库大全(含答案).docx VIP
文档评论(0)