中文文本分类概要1.ppt

下载文档 降价啦

10
0
约7.63千字
约 62页
2017-07-04 发布于湖北
举报
版权申诉
保障服务

中文文本分类概要1.ppt

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文文本分类概要1

* 分类器设计决策树算法-Decision Tree 决策树方法的起源是概念学习系统CLS，然后发展到ID3方法而为高潮，最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant 分类器设计决策树的表示法决策树通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试，并且该节点的每一个后继分支对应于该属性的一个可能值分类器设计 ID3决策树算法简介基本思路是不断选取产生信息增益最大的属性来划分样例集和，构造决策树。信息增益定义为结点与其子结点的信息熵之差。 Pi为子集合中不同性(而二元分类即正样例和负样例)的样例的比例。分类器设计 ID3决策树算法简介这样信息收益可以定义为样本按照某属性划分时造成熵减少的期望，可以区分训练样本中正负样本的能力，其计算公式是分类器设计 ID3算法实例分类器设计计算信息增益分类器设计不同属性的信息增益计算各属性的熵值 Gain(S,Outlook)=0.246 Gain(S,Humidity)=0.151 Gain(S,Wind)=0.048 Gain(S,Temperature)=0.029 可以看到，Outlook得信息增益最大分类器设计 D1,D2,…D14 9+,5- Outlook Sunny D1,D2,D8,D9,D11 2+,3- Rain D4,D5,D6,D10,D14 3+,2- D3,D7,D12,D13 4+,0- Overcast ? 哪一个属性在这里被测试？ ? Yes Ssunny={D1,D2,D8,D9,D11} Gain（Ssunny,Humidity）=0.970-(3/5)0.0-(2/5)0.0=0.970 Gain(Ssunny, Temperature)=0.970-(2/5)0.0-(2/5)1.0-(1/5)0.0=0.570 Gain(Ssunny, Wind)=0.970-(2/5)1.0-(3/5)0.918=0.019 分类器设计最终得到的决策树有了决策树后，就可以根据气候条件做预测了例如如果气候数据是{Sunny,Cool,Normal,Strong} ,根据决策树到左侧的yes叶节点，可以判定属于P。分类器设计神经网络算法- Neural Networks 基本思想: 神经网络是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型常用的神经计算模型有多层感知机、反传网络、自适应映射网络等神经网络通常由输入层、输出层和若干个隐层组成输入层的神经元个数等于样本的特征数输出层就是分类判决层，它的神经元个数等于样本类数分类器设计 BP网络 . . . . . c1 c2 cn …… 输入层隐层输出层分类器设计支持向量机算法-SVM 主要思想是: 针对两类分类问题，在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率它通过非线性变换，将输入向量映射到一个高维空间H 在H中构造最优分类超平面，从而达到最好的泛化能力分类器设计支持向量机算法-SVM 支持向量最优分类面分类器设计朴素贝叶斯算法- Na?ve Bayes 基本思想: 计算文本属于类别的概率。文本属于类别的概率等于文本中的每个词属于类别的概率的综合表达式。分类器设计朴素贝叶斯算法- Na?ve Bayes 设各个类别的集合为 {c1, c2,…cn} 设d为实例的描述确定d的类别 P(D) 可以根据下式确定分类器设计朴素贝叶斯算法- Na?ve Bayes 如果假定样例的特征是独立的，可以写为：因此，只需要知道每个特征和类别的P(wj | ci) 如果只计算单个特征的分布，大大地减少了计算量分类器设计朴素贝叶斯算法- Na?ve Bayes 设V为文档集合D所有词词表对每个类别 ci ? C Di 是文档D中类别Ci的文档集合 P(ci) = |Di| / |D| 设 ni 为Di中词的总数对每个词 wj ? V 令 nij 为Di中wij的数量 P(wi | ci) = (nij+ 1) / (ni + |V |) 分类器设计朴素贝叶斯算法- Na?ve Bayes 给定测试文档 X 设 n 为X中词的个数返回的类别: wi是X中第i个位置的词分类器设计特征选择文本分类的基本概念分类器评价第一部分文本表示第三部分第四部分目录第五部分第二部分有意义串对分类的改进第六部分分类器评价两类分