结合词相关特征和流行学习的中文问句分类.pdfVIP

  • 29
  • 0
  • 约1.99万字
  • 约 8页
  • 2015-10-11 发布于安徽
  • 举报

结合词相关特征和流行学习的中文问句分类.pdf

结合词相关特征与流行学习的中文问句分类* 1 1,2 1 2 1,2 刘立 ,余正涛 ,王蒙 ,毛存礼 ,郭剑毅 1 昆明理工大学信息工程与自动化学院,昆明,650051 2 云南省计算机技术应用重点实验室智能信息处理研究所,昆明,650051 E-mail: ztyu@ 摘  要:针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了 一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以 词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线 性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域 2 万多问句上进行 了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了 87.44%,比采用 TFIDF 进 行特征提取训练得到的分类器的准确率提高了 16 个百分点;比采用语义相似度进行特征提取,并对特征 空间进行 PCA 降维后训练得到的分类器的分类准确率提高了4 个百分点。 关键词:统计问句分类; 流形学习;局部线性嵌入;非线性降维;词汇语义相似度 Chinese Question Class ification Combined Word Similarity with Manifold Learning 1 1,2 1 2 1,2 Liu Li , Yu Zheng-tao , Wang Meng , Mao Cun-li , Guo Jian-yi 1 Institute of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650051, China 2 Institute of Intelligent Information Processing, Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650051, China E-mail: ztyu@ Abstract: Focused on the problems of data sparseness and high-dimension feature space when Bag-of-words method is selected as features in question classification, we propose a new classification method combined word similarity and manifold learning. In detail, this method uses high-frequency words appeared in the training corpus as the question classification features. And the method of word semantic similarity is utilized to constructe the feature values of question feature space. Besides, wi

文档评论(0)

1亿VIP精品文档

相关文档