一种改进的免疫算法及其在文本分类中的应用.pdf

一种改进的免疫算法及其在文本分类中的应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第27卷第2期 西华大学学报(自然科学版) 2008年3月 V01.27,No.2 ofXihua Science Mar.2008 Journal University·Natural 文章编号:1673—159X(2008)02-0016-19 一种改进的免疫算法及其在文本分类中的应用 张启蕊1,谭景华2 (1.广东药学院医药信息工程学院,广州510006;2.中国电信集团广州研发中心,广州510630) 摘要:借鉴了免疫系统的分类本质以及免疫系统的克隆选择和抗体浓度控制原理,提出了基于抗体浓度的 克隆选择算法。该算法基于抗体的浓度和亲和度选择免疫反应细胞,具有高亲和度和低抗体浓度的细胞其选择概 率相对较高。通过对多个免疫反应细胞经过多次克隆变异后选取最优解作为记忆细胞,由最终保留的记忆细胞群 生成分类器。整个过程既保证了解的正确性,又保证了解的多样性。在数据集20一newsgroups上的实验结果显示: 该算法的分类性能优于Rocchio和Naive Bayes,与SVM性能相当。 关键词:免疫算法;克隆选择;抗体浓度;文本分类 中图分类号:TP39l 文献标识码:A 文本分类算法作为自动文本分类技术的核心, 1.1免疫的分类机制 一直处于重点研究与不断发展当中,多年来累积了 免疫系统具有学习、记忆、识别、自适应和动态 很多经典的分类算法,基本都致力于改进训练和分 平衡等特点。对分类而言,则借鉴了免疫系统的学 类的速度和精度。目前文本分类的算法有很多种, 习记忆和识别的功能。免疫系统有两种类型的免疫 包括k近邻法、朴素贝叶斯算法、支持向量机算法 应答:初次免疫应答和二次免疫应答。当抗原第一 等…。总体来说大致可分为两大类:基于统计的方 次入侵生物体时,引发初次免疫应答,免疫系统通过 法和基于规则的方法。朴素贝叶斯算法是经典的基 学习产生记忆细胞。当相同类型的抗原再次入侵 于统计的算法,决策树则是基于规则的方法中的典 时,引发二次免疫应答,免疫系统通过记忆细胞识别 型。 抗原。二次免疫应答的时间远远小于初次免疫应答 选择分类算法时需要考虑以下几个方面的问 的时问‘2|。 题:第一,分类算法本质上是两类算法还是多类算 实际上,免疫的本质就是识别“自己”和“非 法,例如支持向量机是两类分类算法,而k近邻则可 已”。文本分类的训练过程相当于初次免疫应答, 以用于多类分类;第二,分类算法使用的是局部特征 分类过程相当于二次免疫应答,对“本类”和“非本 还是全局特征;第三,训练与分类的时间复杂度。 类”进行识别。 免疫算法是机器学习领域的一个研究热点,免 另外,浓度控制是免疫系统赖以保持抗体多样 疫的本质是对“己”与“非己”进行区分,实际上相当 性的重要机制。在抗原侵入生物体,产生免疫应答 于两类分类。本文将把免疫机制引入文本分类领 的过程中,T细胞起着控制和调节抗体浓度的作用。 域,研究免疫算法在文本分类中的应用。 抗体浓度指的是与某一抗体相同或相近的抗体在抗 l 免疫算法 体群中所占的比例,亲和度相同的抗体被看作同一 抗体。通过抗体浓度控制机制,浓度高的抗体被抑 从广义的角度讲,凡是基于生物学免疫原理的 制,浓度低的抗体被促进,以此来避免免疫系统被同 算法都可以称为免疫算法。免疫算法具有免疫系统

文档评论(0)

精品课件 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档