- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工免疫理论在网络文本分类中的应用研究
摘要:在简单介绍自然免疫系统功能和特性的基础上,依据生物免疫系统免疫记忆特性,提出一种人工免疫网络记忆分类器。实验证明,该分类器能够快速准确的对文本进行分类。
关键词:人工免疫网络;免疫记忆;网络文本分类
中图分类号:TP181文章标识码:A文章编号:1009-3044(2011)26-6492-02
Research of Web Text Classification Based on Artificial Immune System
ZHANG Wei-gang, CHEN Jun-zhang
(Information Engineering Department, Xuchang Vocational Teachnical College, Xuchang 461000, China)
Abstract: This paper concisely introduces some important function and character of narure immune stytem first,and then a new web text classification on artificial immunenetwork memory is presented, which is based on the principle of immune memory. The result of test show that the classifier can class web text fastly and accyracy.
Key words: artificial immune system; immune memory; web text classifier
目前使用的文本分类方法主要有支持向量机(SVM)、K近邻法、决策树、线形最小二乘法估计和贝叶斯分类算法。人工免疫网络记忆分类器(AINMC)受到人工免疫系统(AIRS)的启发,借鉴人工免疫网络(aiNet)利用人工免疫产生记忆细胞的思想,将其发展为监督学习系统,并用于数据分类研究。基于人工免疫网络记忆分类器(AINMC)的文本分类系统能够将大量文本自动分类,以更好地帮助人们更快地找到所需的信息。
1 人工免疫系统
人工免疫系统是模仿自然免疫系统功能的一种智能方法,它实现一种受生物免疫系统启发,通过学习外界物质的自然防御机理的学习技术,提供噪声忍耐、无教师学习、自组织记忆等进化学习机理,结合了分类器、神经网络和机器推理等系统的一些优点,因此具有提供新颖的解决问题方法的潜力。
本文受自然免疫系统的免疫记忆特性的启发,提出一种利用人工免疫网络记忆分类器(AINMC)进行网络文本分类的方法。
2 AINMC网络文本自动分类
2.1 特征提取步骤
待分类网络文本以HTML格式存储,在利用AINMC进行分类前要首先对该文本进行特征提取。
1) 预处理过程一是要根据禁用词集去除文档中语义虚泛和频繁出现的词,如地、因此、的、the、a等。二是要对某些表达不同但概念相同的词语映射为同意概念,例如“计算机”和“电脑”,就要影射为“计算机”。
2) 特征提取
在特征提取算法采用完整的页集合D=(d1,d2,d3,…,dN)建立网页中所有词的列表W=(w1,w2,w3,…,wM)。N,M分别为文件总数和列表中词的总数。这样就可以模拟每一个文件di(i=1,2,3,N)为M维空间RM中的一个向量Vi=(vi,1,vi,2,…,vi,M)。vi,j(j=1,2,…,M)表示词wj(j=1,2,…,M)在文件di(i=1,2,…,N)中出现的关系度量。我们已经预处理了常用词等对分类没积极意义的词,所以利用词w∈W出现或不出现的期望信息增益E(w,D)确定D的类别,其中P(w=pres)是一个词在任何页上至少出现一次的概率,Dw=pres是含有词w的网页集合。DC是属于类别C的网页集合,P(DC)是一个网页属于该类的概率。给定一个特别的词在文件中出现或者不出现的概率,需要多少信息的度量。这样,如果一个特别的词确定文件在哪一个类中,则第二项最小化,E∈(w,D)最大化。反之,如果一个词的出现或者不出现不提供关于一个文件在哪一类中的信息,第二项最大化,E∈(w,D)最小化。总之,对一个特殊的词,期望信息增益E∈(w,D)越高,提供越多的决定一个文件属于哪一类的信息,则该词被认为提供越多的信息。用该提取算法提取具有最高E∈(w,D)值的n个词,建立具有n个特征值的特征向量。
2.2 网络文本自动分类算法实现
在该算法中,上述
文档评论(0)