一种基于人工和机器学习相结合教学网络资源分类方法.docVIP

下载本文档

0
0
约5.02千字
约 11页
2018-08-13 发布于福建
举报
版权申诉

一种基于人工和机器学习相结合教学网络资源分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于人工和机器学习相结合教学网络资源分类方法

一种基于人工和机器学习相结合的教学网络资源分类方法　　摘要：本文探讨了教学网络资源的分类方法，对如何应用人工与机器学习相结合的方法建立类别特征模型进行了研究。简述了K最临近分类法的基本思想。提出在领域专家的帮助下，采用人工的方法选取类别特征项，建立类别特征模型；在小样本集环境下，采用机器学习的方法训练类别特征项权重。并给出了教学网络资源和类别特征模型匹配程度的计算方法。通过实验，对所提出的分类方法的可行性和有效性进行了验证。　　关键词：资源分类；K最临近分类法；类别特征模型；机器学习　　● 引言　　为了实现教学网络资源效用的最大化，必须对这些资源进行有效的组织管理。分类是教学网络资源组织管理的重要方法。由于教学网络资源多维性、动态性、交互性的特点，使得教学网络资源分类体系缺少逻辑性和规范化，不能揭示资源之间的逻辑关系，主要体现在以下几方面[1]：①类别设置缺少规律性。教学网络资源分类中，其类别设置往往同时采取多个标准，每个标准在使用时又并不完整，有时甚至列出不同等级的类别，使得类别的设置显得很混乱，缺乏逻辑性和规律性，从而影响用户查找信息的效率。②类名不规范。有些类别有多个名称，其归属也很随意，不利于用户的检索。③类别没有注释或提示，用户不能直接找到所需类别，必须逐级翻寻。　　因此，有必要建立一个规范的分类体系，来组织管理教学网络资源。　　● K最临近分类法概述　　现有的分类方法主要包括以下几种：K最临近分类、决策树归纳法、贝叶斯分类法、遗传分类法等，各种方法分别适合不同的数据模型。[2] 　　K最临近分类法（K Nearest Neighbor，KNN）是基于类比学习的方法。其基本思想是：类别样本用n维数值属性描述，每个样本表示为n维空间的一个向量，这样所有的类别样本都存放在n维模型空间中，给定一个待分类资源，K最临近分类法搜索模型空间，找出最接近待分类资源的k个类别样本，待分类资源就被分配到k个最临近样本的最公共的类中。当k=1时，待分类资源被指定到模型空间中与之最临近的类别样本的类中。该方法的优点是容易实现和训练快速，并且该方法的启发性搜索是简单的。同时也存在一些缺点，首先如果将所有的类别样本都存起来，分类器就变得笨重并且反应变慢。其次，对于高维向量的资源，对分类起主要作用的维数远远低于资源本身的维数，相当多维对于资源分类意义不大甚至成为噪声数据，这将增加分类的时间和空间复杂度。　　● 分类方法　　本文对K最临近分类法做简约化处理，取k=1，并对类别特征模型构建和分类算法做出如下改进。　　1.类别特征模型构建　　K最临近分类法是通过搜索与待分类资源最临近的（相似度最大）k个类别样本来分类的，因此分类的准确程度很大程度上取决于类别特征项选取的合理性和分类算法的科学性。相关学者提出了许多选取类别特征项的方法：有的提出了基于CHI概率统计选取类别特征项的方法[3]；有的提出了基于互信息差值选取类别特征项的方法[4]；有的提出了基于正交质心算法选取类别特征项的方法。[5]这些方法的基本思想是为类别选择一定数量的样本，按一定的算法从样本集中训练得到类别特征项，建立类别特征模型，本质上是基于机器学习的方法。这些方法是从一定数量的样本出发，而不是从类别层次出发来考虑类别特征项的重要性和价值的，因此训练得到的类别特征项的权威性和合理性无法验证。本文考虑将人工和机器学习结合起来构建类别特征模型。具体步骤如下：　　（1）在领域专家的帮助下，采用人工的方法选取类别特征项。　　在领域专家的帮助下，综合考虑重要性、代表性、权威性、合理性等因素，人工选取类别特征项。考虑到不同的特征项对类别的贡献是不一样的，因此把类别特征项分为三部分：一级核心特征项、二级核心特征项和外围特征项。其中，外围特征项具有一定的类别特征信息，但不丰富；二级核心特征项含有比较丰富的类别特征信息；一级核心特征项含有最丰富的类别特征信息。通常情况下，外围特征项占大部分，而一级、二级核心特征项只占其中的小部分。类别特征项以关键词来表示，如下所示：　　其中，Cj表示类别j，CjF、CjS和CjN分别表示类别j的一级核心特征、二级核心特征和外围特征，kjFx、kjSy和kjNz分别表示类别j的第x个一级核心特征项、第y个二级核心特征项和第z个外围特征项，l、n、m分别是一级核心特征、二级核心特征和外围特征中特征项的个数，λf和λs分别是一级核心特征项和二级核心特征项的权重，由第二个步骤训练得到。公式（2）则表示CjF、CjS和CjN互不包容。　　（2）在小样本集环境下，采用机器学习的方法训练类别特征项权重。　　设训练集包含num个样本，Tr={D1，D2，…，Dnum}，权重向量λ=[λf， λs]T，最优权重向量为λ