《词分布均衡度评价法》实验综述.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013 年第4 期 安徽电子信息职业技术学院学报 No.4 2013 第 12 卷穴总第67 期雪 JOURNALOF ANHUI VOCATIONAL COLLEGE OF ELECTRONICS & INFORMATION TECHNOLOGY General No.67 Vol.12 眼文章编号演 1671-802X穴2013雪04-0040-02 《词分布均衡度评价法》实验综述 毕好昌 (安徽电子信息职业技术学院, 安徽 蚌埠 233000) [摘 要]支持向量机文本分类因其分类精度高而得到广泛应用,本文提出了基于词分布均衡度支持向 量机文本分类算法的实验要求、实验条件、实验步骤及实验结果分析。实验结果表明,在数据挖掘的文本分类 中词分布均衡度评价特征词选取法优于优于标准文档频数法等方法。 [关键词]数据挖掘;文本分类;词分布均衡度;支持向量机 [中图分类号]TP393.01 [文献标识码]A 一 、实验内容和要求 实验内容要求是利用给定的实验平台 、实验数 据和实验方法 ,对词分布均衡度评价法和标准文档 频数法进行分别实验 ,分析实验所得相关数据并得 出结论 ,撰写实验报告 。 二 、实验条件 计算机 ( 、 内存容量 : Intel Core i3 2130 DDR3 图 1 文本分类器构建模型 4GB 、 硬 盘容量 : )、 集 成环 500GB MATLAB R2012b 器 ; 境和相关文档样本数据 。 4.提取训练向量并生成多特征分类训练集 ; 三 、实验原理 5.根据支持向量机算法计算文本词频向量 ,进行 通过对传统特征词选取方法的改进 ,将特征词 文本分类 ; 在文本内出现的概率和在类内的概率综合分析 ,从 6.整理实验数据并分析 ; 而得出特征词在该类文本中分布的均衡度 ,利用均 7.撰写实验报告 。 衡度来决定特征词是否 作为分配类特征词的标准 。 五 、实验结果及分析 根据实验要求设计文本分类模型如图 1 所示 : 本文根据实验平台选择了 10 个类别共 3115 个 四、实验步骤 样本 ,随机从各类别抽取 作 为训练集 , 作 为 70% 30% 1.进入 MATLAB 集 成环境 ,准备好相关文档及 测试集 。利用大家较为接受的查准率 、查全率和宏平 语料库 ; 均值作为文本分类性能评价的标准 。 2.对文本数据集进行预处理 ,并构建相应词库 正确分到类 C 的文档数 查准率 (P )= ×100% 及词频矩阵 ;

文档评论(0)

higu65 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档