基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDFVIP

  • 20
  • 0
  • 约2.18万字
  • 约 6页
  • 2018-12-13 发布于天津
  • 举报

基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDF

基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDF

第35卷第8期    计算机应用与软件 Vol35No.8 2018年8月   ComputerApplicationsandSoftware Aug.2018 基于词向量特征扩展的中文短文本分类研究 1 1 2 雷 朔  刘旭敏  徐维祥 1(首都师范大学信息工程学院 北京 100048) 2(北京交通大学交通运输学院 北京 100044) 摘 要  针对中文短文本词汇较少、噪声多、特征稀疏的特性,为了提高短文本分类精确度,提出一种基于维基 百科词向量的特征扩展算法。利用维基百科语料集训练词向量,通过对文本关键词高相似度词集进行特征扩展, 并将得到的文本用传统的分类器进行分类。实验结果表明,所提方法在短文本分类精确度上要优于其他的文本 特征扩展算法。 关键词  短文本 维基百科 特征扩展 词向量 文本分类 中图分类号 TP391    文献标识码 A    DOI:10.3969/j.issn.1000386x.2018.08.049 CHINESESHORTTEXTCLASSIFICATIONBASEDONWORDVECTOREXTENSION 1 1 2 LeiShuo LiuXumin XuWeixiang 1(CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China) 2(CollegeofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China) Abstract  Inordertoimprovetheaccuracyofshorttextclassification,becauseofthecharacteristicsofless,more noiseandlesscharacteristicofChineseshorttext,afeatureextensionalgorithmbasedonWikipediawordvectorwas proposedtoimprovetheaccuracyofthetextclassification.ByusingtheWikipediacorpustrainingwordvectors,the characteristicsofthewordsetsoftextkeywordsextended,andthetextwasclassifiedbytraditionalclassifier.The experimentalresultsdemonstratethattheproposedmethodisbetterthanothertextfeatureextensionalgorithms. Keywords  Shorttext Wikipedia Featureextension Wordvector Textclassification 息,也逐渐成为了国内外研究学者的热点。但由于其 0 引 言 特征较少,文字长度较短等缺点,不能够将其当成普通 的长文本数据进行相关的数据挖掘,所以有必要提出 随着大数据时代的到来以及移动终端的广泛应 相应的算法来对短文本数据进行分类。 用,人们可以随时随地通过智能终端来获取和发布信 针对短文本特征稀疏的特点,YANG等[3]用引入 息。与此同时,数据结构也发生了数量上的改变,数据 外部文档来进行特征的

文档评论(0)

1亿VIP精品文档

相关文档