- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013 年第4 期 安徽电子信息职业技术学院学报 No.4 2013
第 12 卷穴总第67 期雪 JOURNALOF ANHUI VOCATIONAL COLLEGE OF ELECTRONICS & INFORMATION TECHNOLOGY General No.67 Vol.12
眼文章编号演 1671-802X穴2013雪04-0040-02
《词分布均衡度评价法》实验综述
毕好昌
(安徽电子信息职业技术学院, 安徽 蚌埠 233000)
[摘 要]支持向量机文本分类因其分类精度高而得到广泛应用,本文提出了基于词分布均衡度支持向
量机文本分类算法的实验要求、实验条件、实验步骤及实验结果分析。实验结果表明,在数据挖掘的文本分类
中词分布均衡度评价特征词选取法优于优于标准文档频数法等方法。
[关键词]数据挖掘;文本分类;词分布均衡度;支持向量机
[中图分类号]TP393.01 [文献标识码]A
一 、实验内容和要求
实验内容要求是利用给定的实验平台 、实验数
据和实验方法 ,对词分布均衡度评价法和标准文档
频数法进行分别实验 ,分析实验所得相关数据并得
出结论 ,撰写实验报告 。
二 、实验条件
计算机 ( 、 内存容量 :
Intel Core i3 2130 DDR3 图 1 文本分类器构建模型
4GB 、 硬 盘容量 : )、 集 成环
500GB MATLAB R2012b
器 ;
境和相关文档样本数据 。
4.提取训练向量并生成多特征分类训练集 ;
三 、实验原理
5.根据支持向量机算法计算文本词频向量 ,进行
通过对传统特征词选取方法的改进 ,将特征词
文本分类 ;
在文本内出现的概率和在类内的概率综合分析 ,从
6.整理实验数据并分析 ;
而得出特征词在该类文本中分布的均衡度 ,利用均
7.撰写实验报告 。
衡度来决定特征词是否 作为分配类特征词的标准 。
五 、实验结果及分析
根据实验要求设计文本分类模型如图 1 所示 :
本文根据实验平台选择了 10 个类别共 3115 个
四、实验步骤
样本 ,随机从各类别抽取 作 为训练集 , 作 为
70% 30%
1.进入 MATLAB 集 成环境 ,准备好相关文档及
测试集 。利用大家较为接受的查准率 、查全率和宏平
语料库 ;
均值作为文本分类性能评价的标准 。
2.对文本数据集进行预处理 ,并构建相应词库
正确分到类 C 的文档数
查准率 (P )= ×100%
及词频矩阵 ;
文档评论(0)