- 20
- 0
- 约2.18万字
- 约 6页
- 2018-12-13 发布于天津
- 举报
基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDF
第35卷第8期 计算机应用与软件 Vol35No.8
2018年8月 ComputerApplicationsandSoftware Aug.2018
基于词向量特征扩展的中文短文本分类研究
1 1 2
雷 朔 刘旭敏 徐维祥
1(首都师范大学信息工程学院 北京 100048)
2(北京交通大学交通运输学院 北京 100044)
摘 要 针对中文短文本词汇较少、噪声多、特征稀疏的特性,为了提高短文本分类精确度,提出一种基于维基
百科词向量的特征扩展算法。利用维基百科语料集训练词向量,通过对文本关键词高相似度词集进行特征扩展,
并将得到的文本用传统的分类器进行分类。实验结果表明,所提方法在短文本分类精确度上要优于其他的文本
特征扩展算法。
关键词 短文本 维基百科 特征扩展 词向量 文本分类
中图分类号 TP391 文献标识码 A DOI:10.3969/j.issn.1000386x.2018.08.049
CHINESESHORTTEXTCLASSIFICATIONBASEDONWORDVECTOREXTENSION
1 1 2
LeiShuo LiuXumin XuWeixiang
1(CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China)
2(CollegeofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)
Abstract Inordertoimprovetheaccuracyofshorttextclassification,becauseofthecharacteristicsofless,more
noiseandlesscharacteristicofChineseshorttext,afeatureextensionalgorithmbasedonWikipediawordvectorwas
proposedtoimprovetheaccuracyofthetextclassification.ByusingtheWikipediacorpustrainingwordvectors,the
characteristicsofthewordsetsoftextkeywordsextended,andthetextwasclassifiedbytraditionalclassifier.The
experimentalresultsdemonstratethattheproposedmethodisbetterthanothertextfeatureextensionalgorithms.
Keywords Shorttext Wikipedia Featureextension Wordvector Textclassification
息,也逐渐成为了国内外研究学者的热点。但由于其
0 引 言 特征较少,文字长度较短等缺点,不能够将其当成普通
的长文本数据进行相关的数据挖掘,所以有必要提出
随着大数据时代的到来以及移动终端的广泛应 相应的算法来对短文本数据进行分类。
用,人们可以随时随地通过智能终端来获取和发布信 针对短文本特征稀疏的特点,YANG等[3]用引入
息。与此同时,数据结构也发生了数量上的改变,数据 外部文档来进行特征的
您可能关注的文档
最近下载
- X-MINI 杂物梯主板说明书.pdf VIP
- 市政协副主席2025年度民主生活会对照检查材料(五个带头).docx VIP
- 2023年沈阳工业大学计算机科学与技术专业《计算机网络》科目期末试卷B(有答案).docx VIP
- 花式年糕加工机设计【开题报告+文献综述+毕业设计】.Doc VIP
- 成都市锦江区2026届初三一诊(暨期末考试)化学试卷(含答案).pdf
- 结构化面试经典100题.docx VIP
- 2023年沈阳工业大学计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 车辆租赁项目提出的建议和意见.docx VIP
- 2023届小升初数学考试试卷及答案().pdf VIP
- 2025届云南省中考道德与法治真题试卷(附答案).doc VIP
原创力文档

文档评论(0)