人工智能的文本分类方法简述.docVIP

下载本文档

22
0
约 7页
2015-08-09 发布于河南
举报
版权申诉

人工智能的文本分类方法简述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能的文本分类方法简述.doc

人工智能的文本分类方法简述人工智能的文本分类方法简述摘要：关键词：文本分类；贝叶斯方法；数据挖掘；分类算法。 0 引言文本分类是指在给定分类体系下 , 根据文本2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的正确性。这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真, 1 分类的基本概念分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的常用的分类算法 2.1基于决策树的分类所谓决策树就是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别( 如图 1)。生成决策树的一个著名的算法是 Quinlan 提出的 ID3算法, ID3 算法从树的根节点处的所有训练样本开始, 选取一个属性来区分这些样本, 属性的每一个值产生一个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法递归地应用于每个子节点, 直到一个节点上的所有样本都分区到某个类中。属性选择采用信息增益的方法来确定。选择具有最高信息增益( 熵减少的程度最大) 的属性作为当前结点的测试属性, 这样保证所产生的决策树最为简单,工作量最小。设 S 为一个包含了 S 个数据样本的集合,且类别属性可以取 m 个不同的值{ C 1, C 2??, Cm }。假设 Si 为类别Ci 中的样本个数; 则对一个给定数据对象进行分类所需要的信息量为 : 其中 p i= s i/ s。设一个属性 A 取 v 个不同的值{ a1 , a2??, av} , 利用属性 A 将S 划分为 v 个子集{ S 1, S 2 ??, Sv } , 设 S i j 为子集 Sj中属于Ci 类别的样本数。那么利用属性 A 划分当前样本集合所需要的信息(熵)可以按如下公式计算 : 这样利用属性 A 对当前分支结点进行相应样本集合划分所获得的信息增益就是 : 通过以上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合 S 的测试属性, 创建一个节点,并以该属性标记, 对属性的每个值创建分支,进行样本划分。 ID3 算法在选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支都对应一个分类规则, 因此产生的分类规则易于理解;同时, 分类速度较快,准确率较高。但是 ID3 算法也存在着许多不足: 1) 不能够处理连续值属性; 2) 计算信息增益时偏向于选择取值较多的属性; 3)对噪声较为敏感; 4) 在构造树的过程中, 需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效; 5) 只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。 ID3 的改进算法有 C4. 5, C4. 5 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,在树构造过程中或构造完成后进行剪枝, 提高了抗噪声能力;能够对连续值属性进行离散化处理; 能够对不完整数据进行处理。常用的决策树算法还有 SLIQ 算法。SLIQ 算法对 C4. 5分类算法的实现方法进行了改进,在决策树的构造过程中采用了预排序与广度优先增长策略,使得该算法能够处理更大的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。但是它仍然存在着一些不足; 1) 由于需要将类别列表存放于内存,在一定程度上限制了可以处理的数据集的大小; 2) 由于采用了预排序技术, 而排序算法的复杂度本身并不是与记录个数成线性关系, 因此使得SLIQ 算法不可能达到随记数目增长的线性可扩展性。 2.2 贝叶斯分类贝叶斯分类是统计学分类在方法,它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。基本贝叶斯分类( Naive Bayes) 首先假设一个属性值对给定类的影响独立于其它属性的值, 即类条件独立, 它可以帮助有效减少在构造贝叶斯分类器时所需要的计算量。基本贝叶斯分类的工作过程如下: 给定一个没有类标号的数据样本 X ,用 X = { x 1, x 2 ??,x n}表示,分别描述 X 在 n 个属性{ A 1 , A 2 ??, An }上的属性值。设有 m 个类{ C1 , C2 ??, Cm} ,那么, 将样本 X 分配给类Ci 的条件就是 : 根据贝叶斯定理：其中, P ( X )对于所有类来说为常数, P ( Ci) = si/ s。假定各属性值相互条件独立(类条件独立) , 这样 P ( X | Ci )的计算可使用公式 : 概率 P(