中文文本分类概要1.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本分类概要1

* 分类器设计 决策树算法-Decision Tree 决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant 分类器设计 决策树的表示法 决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。 树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值 分类器设计 ID3决策树算法简介 基本思路是不断选取产生信息增益最大的属性来划 分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。 Pi为子集合中不同性(而二元分类即正样例和负样例)的样例的比例。 分类器设计 ID3决策树算法简介 这样信息收益可以定义为样本按照某属性划分时造成熵减少的期望,可以区分训练样本中正负样本的能力,其计算公式是 分类器设计 ID3算法实例 分类器设计 计算信息增益 分类器设计 不同属性的信息增益 计算各属性的熵值 Gain(S,Outlook)=0.246 Gain(S,Humidity)=0.151 Gain(S,Wind)=0.048 Gain(S,Temperature)=0.029 可以看到,Outlook得信息增益最大 分类器设计 D1,D2,…D14 9+,5- Outlook Sunny D1,D2,D8,D9,D11 2+,3- Rain D4,D5,D6,D10,D14 3+,2- D3,D7,D12,D13 4+,0- Overcast ? 哪一个属性在这里被测试? ? Yes Ssunny={D1,D2,D8,D9,D11} Gain(Ssunny,Humidity)=0.970-(3/5)0.0-(2/5)0.0=0.970 Gain(Ssunny, Temperature)=0.970-(2/5)0.0-(2/5)1.0-(1/5)0.0=0.570 Gain(Ssunny, Wind)=0.970-(2/5)1.0-(3/5)0.918=0.019 分类器设计 最终得到的决策树 有了决策树后,就可以根据气候条件做预测了 例如如果气候数据是{Sunny,Cool,Normal,Strong} ,根据决策树到左侧的yes叶节点,可以判定属于P。 分类器设计 神经网络算法- Neural Networks 基本思想: 神经网络是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型 常用的神经计算模型有多层感知机、反传网络、自适应映射网络等 神经网络通常由输入层、输出层和若干个隐层组成 输入层的神经元个数等于样本的特征数 输出层就是分类判决层,它的神经元个数等于样本类数 分类器设计 BP网络 . . . . . c1 c2 cn …… 输入层 隐层 输出层 分类器设计 支持向量机算法-SVM 主要思想是: 针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率 它通过非线性变换,将输入向量映射到一个高维空间H 在H中构造最优分类超平面,从而达到最好的泛化能力 分类器设计 支持向量机算法-SVM 支持向量 最优分类面 分类器设计 朴素贝叶斯算法- Na?ve Bayes 基本思想: 计算文本属于类别的概率。 文本属于类别的概率等于文本中的每个词属于类别的概率的综合表达式。 分类器设计 朴素贝叶斯算法- Na?ve Bayes 设各个类别的集合为 {c1, c2,…cn} 设d为实例的描述 确定d的类别 P(D) 可以根据下式确定 分类器设计 朴素贝叶斯算法- Na?ve Bayes 如果假定样例的特征是独立的,可以写为: 因此,只需要知道每个特征和类别的P(wj | ci) 如果只计算单个特征的分布,大大地减少了计算量 分类器设计 朴素贝叶斯算法- Na?ve Bayes 设V为文档集合D所有词词表 对每个类别 ci ? C Di 是文档D中类别Ci的文档集合 P(ci) = |Di| / |D| 设 ni 为Di中词的总数 对每个词 wj ? V 令 nij 为Di中wij的数量 P(wi | ci) = (nij+ 1) / (ni + |V |) 分类器设计 朴素贝叶斯算法- Na?ve Bayes 给定测试文档 X 设 n 为X中词的个数 返回的类别: wi是X中第i个位置的词 分类器设计 特征选择 文本分类的基本概念 分类器评价 第一部分 文本表示 第三部分 第四部分 目 录 第五部分 第二部分 有意义串对分类的改进 第六部分 分类器评价 两类分

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档