一种基于决策树选项识别方法.docVIP

下载本文档

2
0
约5.29千字
约 12页
2018-08-13 发布于福建
举报
版权申诉

一种基于决策树选项识别方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于决策树选项识别方法

一种基于决策树的选项识别方法　　摘要：文章将机器学习中的决策树算法和图像处理技术相结合，提出了一种基于决策树的选项识别方法，该方法首先需要通过人工标注的方式从答题卡中抽取选项构造训练集和测试集，训练集和测试集都包括填涂的选项和未填涂的选项两类，接着将训练集中的答题卡选项切割成n个大小相同的小矩形，通过计算这些小矩形的占空比并通过设定阈值的方式将其离散化成{0，l}中的其中一个值，这些值将作为选项的填涂空间信息特征，然后将n个小矩形的离散后的值相加作为表征选项整体填涂信息特征，再将这n+l个特征构成特征向量的形式，去构造选项识别的决策树，最后，用测试集测试决策树的准确率和速度。经过仿真测试，在权衡识别准确率和识别效率之后，得出选项切割的最佳个数和最佳离散化阈值，在该参数的设置下，决策树的识别性能具有满意的结果。该方法实现方便、简单、易于理解，并具有很高的准确率和很快的识别速度。　　关键词：机器学习；决策树；选项识别；特征提取；答题卡　　1 相关概述　　1.1研究背景　　随着科学技术的日益发展，传统的教育行业也发生着巨大的变革，从以前的客观题需要人工手动批改，到后来使用光学标记阅读机去识别选项答案，效率得到了大大的提升。但光学标记阅读机虽然速度快，准确性高，但也存在着一些问题[1-3]：（1）设备成本高，一台普通的光学标记阅读机需要好几万的成本。（2）答题卡需要定制。（3）光学标记阅读机不能保存数字图像。基于上面的原因，出现了数码阅卷的方式，该方式只需要将试卷扫描到电脑上，通过一定的算法就可实现识别，通用性更好并且不需要额外的识别硬件。　　1.2答题卡客观题选项识别的缺点和不足　　虽然数码阅卷取得了长足的进展，但在客观题选项识别上仍然存在着一些不尽人意的地方。当前选项识别方法一般分为两种，一是简单通过计算占空比的方法，二是使用支持向量机（SVM）识别[4-5]。下面分别简单介绍两种方法的实现。　　1.2.1计算占空比方法　　该方法步骤为[67]：（1）判断像素是否为黑色像素，若是的话，则累加。（2）求得该选项的占空比，公式为：占空比=黑色像素总和/选项矩形面积。（3）判断计算出来的古空比是否大于某一设定阈值，若大于，则输出为填涂，否则，输出为未填涂。　　这种方法实现简单，识别速度快，但由于需要设置固定的阈值，因此对一些填涂不全的选项会出现误识的结果，整体准确率不是太高。　　1.2.2支持向量机识别　　在王胜春的论文《基于SVM的信息识别系统》中，提出了用支持向量机识别选项的方法，该方法步骤为[8]（1）定义各识别块与水平定位块的相对坐标模板。（2）?λ?平定位区域进行图像分割。（3）获取各水平定位块重心。（4）根据各信息识别块与水平定位块的相对坐标模块，获取各信息识别块初步识别范围。（5）根据各信息识别块初步识别范围及所定义的环境因子构建输入向量集。（6）采用SVM对输入向量集进行训练与识别，获取识别结果。　　该方法使用了较多的参数，使得实现起来具有一定的困难性，并且论文中提出的识别方法和论文中的识别系统耦合度过高。　　1.3决策树简介　　决策树是一种简单、高效的机器学习分类算法，它通俗易懂，跟人的思考方式很像，构建出来的树图形清晰明了，同时它也是其他复杂的机器学习算法，如boost、随机森林的基础。　　从技术上讲，一个决策树由一系列节点和分支组成，而节点和子节点之间形成分支，节点代表着决策过程中所考虑的属性，而不同属性值形成不同分支。为了利用决策树对某一事例作出决策，可以利用这一事例的属性值并由树根向下搜索直至叶节点，叶节点上即包含着决策结果[9-10]。　　决策树的构造包含以下4步[11]：（l）选择度量集合分类不纯度的计算方法，一般有熵、吉尼不纯度、错分类不纯度3种可选择。（2）遍历集合的每个特征，根据度量选择分类效果最好的属性对集合进行划分。（3）递归地构造整棵决策树。（4）使用剪枝策略修建决策树，防止其过拟合。2算法介绍　　决策树具有良好的数学理论支持，方便调试，构造的模型易于理解，因此很适合用于答题卡选项的识别[12]。　　构造决策树需要对象的特征，之前的论文中，选项的特征提取做法是[1]：对选项分割后计算各个小矩形的占空比，并以此为特征；这种做法是比较适合的，因为只有一个总体的占空比的做法，会丢失了填涂的空间信息。这就好比，在一个房间里，有许许多多本书，如果我们只知道房间内有多少本书，那么当我们要找一本书的时候就非常麻烦，但如果我们将这些书分门别类，分成一块区域一块区域去管理，那样就既可以保留了书本的数量信息，又可以保留书本的空间信息，寻找起来就会快很多。而将选项划分为多个小区域的做法，就做到了既保留了填涂的总体信息，又保留了填涂的空间信