- 5
- 0
- 约1.87万字
- 约 7页
- 2017-11-11 发布于天津
- 举报
中文信息学报基于svm的中文组块分析ξ-中国中文信息学会
中 文 信 息 学 报
第 18 卷 第 2 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vol 18 No2
文章编号 :1003 - 0077 (2004) 02 - 000 1 - 07
基于 SVM 的中文组块分析
李 珩 ,朱靖波 ,姚天顺
( 东北大学 计算机软件与理论研究所 ,辽宁 沈阳 110004)
摘要 :基于 SVM (support vector machine) 理论的分类算法 , 由于其完善的理论基础和 良好的实验结果 , 目
前已逐渐引起国内外研究者的关注 。和其他分类算法相比 ,基于结构风险最小化原则的 SVM 在小样本模式
识别中表现较好的泛化能力 。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的
片断 ,来达到降低句法分析的难度 。本文将中文组块识别问题看成分类问题 ,并利用 SVM 加以解决 。实验
结果证明 ,SVM 算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是 F = 8867 % ,
并且特别适用于有限的汉语带标信息的情况 。
关键词 :计算机应用 ; 中文信息处理 ;支持向量机 ;结构风险最小化 ;文本组块
中图分类号 : TP39 1 文献标识码 :A
SVM Based Chinese Text Chunking
L I Heng ,ZHU J ingbo , YAO Tianshun
( Institute of Computer Software and Theory ,Nort heastern Univer sit y , Shenyang , Liaoning 110004 ,China)
Abstract : The classification algorit hm based on SVM ( support vector machine) attract s more attention from re
searchers due to it s p erfect t heoretical prop erties and good empirical result s. Comp ared wit h ot her classification algo
rit hms , structural risk minimizations based SVM achieve high generalization p erformance wit h small number of sam
ples. The text chunking , as a preprocessing step for p arsing , is to divide text into syntactically related nonoverlap
ping group s of words (chunks) , reducing t he complexity of t he full p arsing. In t his p ap er , we treat Chinese text
chunking as a classification problem , and apply SVM to solve it . The chunking exp eriment s were carried out on t he
HI T Chinese Treebank corpus. Exp erimental result s show t hat it is an effective approach , achieving an F score of
8867 % , esp ecially for
您可能关注的文档
- 一种基于主动学习的集成协同训练算法-山东大学学报工学版.pdf
- 三峡大学2009年全日制本科自考助学班招生问答-三峡大学成人教育.doc
- 三疣梭子蟹portunustrituberculatus冻藏过程中肌肉-海洋科学.pdf
- 三维荧光光谱法研究蛋白质溶液构象pdf4176kb.pdf
- 三维井眼全井钻柱系统动力学模型研究-石油学报.pdf
- 三角高程测量-河北地理信息局.doc
- 三连杆移动机械臂模型与运动规划-控制理论与应用.pdf
- 三白草的研究进展-药用植物资源平台.pdf
- 上海农业数字图书馆开通啦!!!-上海农业科学院.doc
- 上海农用化学品使用历史演变及污染防治对策-上海环境科学研究院.pdf
原创力文档

文档评论(0)