贝叶斯算法文本分类.ppt

贝叶斯算法文本分类

* 分类器设计 K近邻算法-KNN 在新文本的k个邻居中,依次计算每类的权重,计算公式如下: 其中, 为新文本的特征向量, 为相似度计算公式,与上 一步骤的计算公式相同,而 为类别属性函数,即如果 属于 类 ,那么函数值为1,否则为0; 比较每类的权重,将文本分到权重最大的那个类别中 分类器设计 决策树算法-Decision Tree 决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant 分类器设计 决策树的表示法 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。 树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值 分类器设计 ID3决策树算法简介 基本思路是不断选取产生信息增益最大的属性来划 分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。 Pi为子集合中不同性(而二元分类即正样例和负样例)的样例的比例。 分类器设计 ID3决策树算法简介 这样信息收益可以定义为样本按照某属性划分时造成熵减少的期望,可以区分训练样本中正负样本的能力,其计算公式是 分类器设计 ID3算法实例 分类器设计 计算信息增益 分类器设计 不同属性的信息增益 计算各属

文档评论(0)

1亿VIP精品文档

相关文档