基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDFVIP

下载本文档

20
0
约2.18万字
约 6页
2018-12-13 发布于天津
举报

基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDF

第３５卷第８期　　　计算机应用与软件Ｖｏｌ３５Ｎｏ．８２０１８年８月　　ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＡｕｇ．２０１８基于词向量特征扩展的中文短文本分类研究１１２雷　朔　刘旭敏　徐维祥１（首都师范大学信息工程学院　北京１０００４８）２（北京交通大学交通运输学院　北京１０００４４）摘　要　　针对中文短文本词汇较少、噪声多、特征稀疏的特性，为了提高短文本分类精确度，提出一种基于维基百科词向量的特征扩展算法。利用维基百科语料集训练词向量，通过对文本关键词高相似度词集进行特征扩展，并将得到的文本用传统的分类器进行分类。实验结果表明，所提方法在短文本分类精确度上要优于其他的文本特征扩展算法。关键词　　短文本　维基百科　特征扩展　词向量　文本分类中图分类号　ＴＰ３９１　　　　文献标识码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１８．０８．０４９ＣＨＩＮＥＳＥＳＨＯＲＴＴＥＸＴＣＬＡＳＳＩＦＩＣＡＴＩＯＮＢＡＳＥＤＯＮＷＯＲＤＶＥＣＴＯＲＥＸＴＥＮＳＩＯＮ１１２ＬｅｉＳｈｕｏ　ＬｉｕＸｕｍｉｎ　ＸｕＷｅｉｘｉａｎｇ１（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＣａｐｉｔａｌＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４８，Ｃｈｉｎａ）２（ＣｏｌｌｅｇｅｏｆＴｒａｆｆｉｃａｎｄＴｒａｎｓｐｏｒｔａｔｉｏｎ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｓｈｏｒｔｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｂｅｃａｕｓｅｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｌｅｓｓ，ｍｏｒｅｎｏｉｓｅａｎｄｌｅｓｓｃｈａｒａｃｔｅｒｉｓｔｉｃｏｆＣｈｉｎｅｓｅｓｈｏｒｔｔｅｘｔ，ａｆｅａｔｕｒｅｅｘｔｅｎｓｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＷｉｋｉｐｅｄｉａｗｏｒｄｖｅｃｔｏｒｗａｓｐｒｏｐｏｓｅｄｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．ＢｙｕｓｉｎｇｔｈｅＷｉｋｉｐｅｄｉａｃｏｒｐｕｓｔｒａｉｎｉｎｇｗｏｒｄｖｅｃｔｏｒｓ，ｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｅｗｏｒｄｓｅｔｓｏｆｔｅｘｔｋｅｙｗｏｒｄｓｅｘｔｅｎｄｅｄ，ａｎｄｔｈｅｔｅｘｔｗａｓｃｌａｓｓｉｆｉｅｄｂｙｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｅｒ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｓｂｅｔｔｅｒｔｈａｎｏｔｈｅｒｔｅｘｔｆｅａｔｕｒｅｅｘｔｅｎｓｉｏｎａｌｇｏｒｉｔｈｍｓ．Ｋｅｙｗｏｒｄｓ　　Ｓｈｏｒｔｔｅｘｔ　Ｗｉｋｉｐｅｄｉａ　Ｆｅａｔｕｒｅｅｘｔｅｎｓｉｏｎ　Ｗｏｒｄｖｅｃｔｏｒ　Ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ息，也逐渐成为了国内外研究学者的热点。但由于其０　引　言特征较少，文字长度较短等缺点，不能够将其当成普通的长文本数据进行相关的数据挖掘，所以有必要提出随着大数据时代的到来以及移动终端的广泛应相应的算法来对短文本数据进行分类。用，人们可以随时随地通过智能终端来获取和发布信针对短文本特征稀疏的特点，ＹＡＮＧ等［３］用引入息。与此同时，数据结构也发生了数量上的改变，数据外部文档来进行特征的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于词向量特征扩展的中文短文本分类研究-计算机应用与软件.PDFVIP