- 29
- 0
- 约1.99万字
- 约 8页
- 2015-10-11 发布于安徽
- 举报
结合词相关特征与流行学习的中文问句分类*
1 1,2 1 2 1,2
刘立 ,余正涛 ,王蒙 ,毛存礼 ,郭剑毅
1 昆明理工大学信息工程与自动化学院,昆明,650051
2 云南省计算机技术应用重点实验室智能信息处理研究所,昆明,650051
E-mail: ztyu@
摘 要:针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了
一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以
词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线
性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域 2 万多问句上进行
了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了 87.44%,比采用 TFIDF 进
行特征提取训练得到的分类器的准确率提高了 16 个百分点;比采用语义相似度进行特征提取,并对特征
空间进行 PCA 降维后训练得到的分类器的分类准确率提高了4 个百分点。
关键词:统计问句分类; 流形学习;局部线性嵌入;非线性降维;词汇语义相似度
Chinese Question Class ification Combined Word
Similarity with Manifold Learning
1 1,2 1 2 1,2
Liu Li , Yu Zheng-tao , Wang Meng , Mao Cun-li , Guo Jian-yi
1 Institute of Information Engineering and Automation, Kunming University of Science and Technology,
Kunming 650051, China
2 Institute of Intelligent Information Processing, Computer Technology Application Key Laboratory of Yunnan
Province, Kunming 650051, China
E-mail: ztyu@
Abstract: Focused on the problems of data sparseness and high-dimension feature space when Bag-of-words
method is selected as features in question classification, we propose a new classification method combined word
similarity and manifold learning. In detail, this method uses high-frequency words appeared in the training corpus
as the question classification features. And the method of word semantic similarity is utilized to constructe the
feature values of question feature space. Besides, wi
您可能关注的文档
最近下载
- 大数据技术融合人力资源管理.docx VIP
- 2026年中国大型广告牌行业市场数据调查、监测研究报告.docx
- 2025年江苏省建筑施工企业主要负责人安全员A证考核考试题库附答案.docx
- 新编语文课程与教学论讲义.docx VIP
- 苏科版数学八年级下册期中测试试卷-含答案02.pdf VIP
- 03-【传统村落保护规划】宁波韩岭古村总体改造方案-DC国际-366页.pdf VIP
- 汽车调光玻璃行业市场前景及投资研究报告:天幕玻璃,国产厂商突破瓶颈,价格下探.pdf VIP
- 金融大数据与人工智能的融合趋势.docx VIP
- 上肢康复训练系统技术参数.docx VIP
- 五年级下册每日计算.pdf VIP
原创力文档

文档评论(0)