基于SVM与KNN的中文文本分类比较实证研究.pdfVIP

基于SVM与KNN的中文文本分类比较实证研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ITA # 信息系统 ! ●刘怀亮 , 张治国 , 马志辉 , 孙  蕾 (西安 电子科技大学  经济管理学院 , 陕西  西安 710071) 3 基 于 SVM 与 KNN 的 中 文 文 本 分 类 比 较 实 证 研 究   摘  要 : 本文 详细介绍了中文文本 分类过程 以及 SVM 和 KNN 两种方法在 中文文本分类中的具体 步 骤 , 给出 了中文文本分类的模型 。通过实验对 SVM 算法和传统的 KNN 算法应用于文本分类 效果进行了 比 较性 实证研究 。研 究表明 , SVM 分类器较 KNN 在处理中文文本分类 问题上有更 良好的分类效果 , 有较 高 的查全率和查准率 。 关键 词 : 支持 向量机 ; 文本分类 ; 实证研究 Ab str a ct : Af te r de scrib in the ca te o rizat ion p roce ss o f th e Ch ine se text an d th e conc re te step s of u sin SVM and KNN to ca te orize the Ch ine se text, a mode l of Chin ese text cate oriza tion is p rop o sed. A n emp irical study of u 2 sin th e SVM a l orithm and the tradit ion al KNN al orithm to ca te orize the Chin ese text is con duc ted. The exp e ri2 m en t show s tha t, comp ared w ith KNN , SVM ha s b ette r cate orizat ion effec t of the Ch ine se text an d h i he r reca ll ra2 t io and p ert inency rat io. K eywor d s: support vec tor m ach in e; text cate orization; emp irica l stu dy   自人类文明出现后 , 信息便开始不断地积累 , 人们必 的有序整合 , 以便人们对这些资源进行查找 和利用 。文本 须学会如何在浩瀚的信息中发现和挖掘 自己所需要的信息 分类过程主要分 5个阶段 : 分类语料库的构建阶段 、数据 资源 。 预处理阶段 、训练阶段 、分类 阶段和分类 性能评估阶段 。 随着计算机技术和互联网的飞速发展 , 互联网上 的电 将主要解决以下 5个问题 [ 1] : 分类语料库构建 、文本特征 子文档信息急剧增加 。面对如此浩瀚的信息 , 人们迫切需 表示 、文本特征抽 取 、文本 分类 算法选 择和分类 性 能评 要寻找一条能够快速 、准确获得所需信息的途径 。传 统的 估 。其中 , 文本特征表示和文本分类算法选择是 中文文本 做法是对网上信息进行人工分类 , 并加以组织和整理 , 为 分类的核心问题 , 它们直接决定了分类的性 能 。中文文本 人们提供一种相对有效的信息获取手段 。但是 , 这种传统 分类过程如图 1所示 。 的人工分类的做法存在 着 许多弊端 : 一是耗费大量的人 力 , 物力和精力 ; 二是存在分类 结果一致性 不高 的问题 。 这就要求我们 去探 索计

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档