- 7
- 0
- 约2.79万字
- 约 6页
- 2018-12-13 发布于天津
- 举报
基于CP-CNN的中文短文本分类研究-计算机应用研究.PDF
基于CP-CNN 的中文短文本分类研究
作者 余本功, 张连彬
机构 合肥工业大学 管理学院;合肥工业大学 过程优化与智能决策教育部重点实验室
发表期刊 《计算机应用研究》
预排期卷 2018 年第35 卷第4 期
访问地址 /article/02-2018-04-021.html
发布日期 2017-03-31 16:58:11
引用格式 余本功, 张连彬. 基于CP-CNN 的中文短文本分类研究[J/OL]. [2017-03-31]. http://www.arocma
/article/02-2018-04-021.html.
摘要 短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。
针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入
一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用 k-
max 采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,
实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效
果。
关键词 短文本, 分类, 卷积神经网络
中图分类号 TP183
基金项目 国家教育部人文社会科学基金项目(2012JYRW0710); 国家自然科学基金项目
35
优先出版 计 算 机 应 用 研 究 第 卷
基于CP-CNN 的中文短文本分类研究*
a, b a
余本功 ,张连彬
( a b 230009)
合肥工业大学 .管理学院; .过程优化与智能决策教育部重点实验室,合肥
摘 要:短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,
提出了一种结合字符和词的双输入卷积神经网络模型 CP-CNN 。该模型通过加入一种用拼音序列表征字符级输入的方
法,构建字符级和词级的双输入矩阵,并在采样层使用k-max 采样方法,增强模型特征的表达能力。利用豆瓣电影评论
数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高
短文本分类效果。
关键词:短文本;分类;卷积神经网络
中图分类号:TP183
Chinese short text classification based on CP-CNN
Yu Bengonga, b, Zhng Linbina
(a. School of Management, b. Key Laboratory of Process Optimization Intelligent Decision-making, Ministry of Education,
Hefei University of Technology, Hefei 230009, China )
Abstract: Since short text is characterized of
原创力文档

文档评论(0)