大数据下大学生知识能力分类模型构建方法.docVIP

下载本文档

9
0
约3.22千字
约 7页
2018-09-01 发布于福建
举报
版权申诉

大数据下大学生知识能力分类模型构建方法.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据下大学生知识能力分类模型构建方法

大数据下大学生知识能力分类模型构建方法　　摘要：针对传统高斯过程分类失衡数据的低精度和低效率，通过引入样本权重系数的似然函数、后验概率中的诱导变量及诱导因子重构研究，解决原始方法的分类向少数类偏移和计算复杂问题，本文重点阐述分类模型的构建内容和研究技术路线，并给出模型的具体应用和评价办法，结果表明本文提出的大学生知识能力分类模型的构建方法切实可行。　　【关键词】大数据分类模型高斯过程分类似然函数　　针对大量数据分类问题，国内外学者开展了大量研究工作，取得了很好的效果。目前，这个领域内的研究主要集中在三个方而的改进：数据集、算法和评价标准。数据集方而，主要是对数据预处理以改善数据集中各类样本之问数目的不平衡，但随着大数据思维及运用的普及，规范统计工作推进增强了数据的高维计量性，用于探讨行为规律、预测发展方向等领域的数据挖掘、时序跟踪、关联分析、网络聚类等大数据处理技术与相应软件不断完善，并逐步被集中于大数据管理系统，以服务大数据分析，方便政府数据挖掘、形势预测与调整措施提出。因此，针对高校大学生知识能力分类与评价智能处理研究显得十分必要，本文在大数据背景下，给出分类模型的主要研究内容、研究方法及实验方案。这对于高等学校、企事业等单位的人才分类与评价均具有重要的现实意义。　　1 分类模型的构建内容分析　　本模型的构建内容主要包括如下三个方而的内容，具体如下：　　1.1 大规模失衡数据的高斯过程模型似然函数重构研究　　基于传统高斯过程分类模型，通过对似然函数的重构，建立似然函数及在似然函数基础上构建的联合似然函数与大规模数据集中少数类的敏感关系模型，使得错分少数类样本的代价大于错分多数类样本的代价，最终改善少数类样本的分类预测精度。　　1.2 高斯过程模型后?概率诱导变量及诱导子　　在传统高斯过程模型基础上，构建诱导变量Fu，继而探索引入Fu的后验概率P，在大规模正负类中，最终合成诱导变量Fu中的诱导子集，使得诱导变量和子集趋于最优，籍此降低计算复杂度和提升失衡数据的分类精度。　　1.3 基于高校大学生知识能力的大规模失衡数据的高精度分类方法的实验性验证和应用　　本文设计一个基于宁德师范学院大学生知识能力特征的大规模数据分类验证平台，验证上述各项研究内容的结论，逐步完善各个环节在整体中的性能要求，建立性能评价模型，通过评价模型迭代完善分类模型性能和分类精度。　　2 模型构建的技术路线分析　　存牛顿方法、粗糙集、内外P集、K均值聚类算法等相关理论技术，对高斯过程模型的似然函数重构设计和实验、后验概率分布计算中的诱导变量及诱导因子构建方法进行研究，然后对核心算法进行实验仿真和验证。最后进行系统级设计，建立系统模型，完成系统验证。具体的研究路线如图1所示。　　下而阐述解决主要问题的技术路线，具体如下：　　2.1 大规模失衡数据的高斯过程模型似然函数重构研究技术路线　　第一步：建立不少于10组的规模不一的失衡数据集，根据高校贫困学生的分布状况，应控制这10组数据的规模控制比例，正负样本的比例控制在1：10000以内，其中小于1：5000的实验数据组不少于3组。　　第二步：在传统高斯过程潜变量函数基础上，定义在训练本上的似然函数，并建立而向第一步多组数据集上的联合似然函数，这里的联合似然函数的构建将根据实验数据组的变化，构建多个联合似然函数，实验验证联合似然函数的与实验数据组的最佳关系，同时验证联合似然函数的、实验数据组、各组正负样本比例三者之问的关系。　　第三步：充分验证错分一个少数类样本的代价与错分一个多数类样本的代价对比结果，并验证联合似然函数对于少数正样本类的敏感性。　　第四步：在联合似然函数中的正负类样本对应的似然函数上引入不同的权重系数，进行迭代式重构实验，使得错分少数类样本的代价大于错分多数类样本的代价，在该步研究中，可能会遇到权重系数取值问题，对于问题解决办法为：总体上应确保少数类样本对应的权重系数要大于1，而多数类样本对应的权重系数要小于1，两类样本数目越悬殊，权重的差距应根据实验迭代验证结果设定在一个合理值，总体目标是保证联合似然函数中正负类样本在整体上具有一样的话语权。　　2.2 高斯过程模型后验概率诱导变量及诱导子集的构建研究技术路线　　为构建一个最佳化的诱导变量和诱导子集，采用如下研究技术路线：　　第一步：首先对样本集使用粗糙集和P集理论方法进行连续数据离散化处理，继而进行样本集的筛选和属性约简研究。　　第二步：构建诱导变量Fu，通过微积分推导出含有诱导变量Fu的后验概率，在构建变量和后验概率推导中，采用有限储存牛顿方法、Gauss-Hermite求积公式、稀疏矩阵等计算得出高斯函数逼近参数值。　　第三步：在第一步基