一种改进基于神经网络文本分类算法.docVIP

下载本文档

1
0
约6.21千字
约 14页
2018-08-13 发布于福建
举报
版权申诉

一种改进基于神经网络文本分类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进基于神经网络文本分类算法

一种改进的基于神经网络的文本分类算法　　摘要：提出并实现了一种结合前馈型神经网络和K最近邻的文本分类算法。其中，在选取特征项时考虑到Web文本不同标签组所代表的意义和权重有所区别，采用了一种改进的TFIDF特征选择法。最后对设计的分类器进行了开放性测试，实验结果表明该分类器显著地提高了文本分类的查全率和查准率。　　关键词：文本分类；神经网络； K最近邻；特征选择　　中图分类号：TP183文献标志码：A 　　文章编号：1001－3695(2008)06－1639－03 　　　　0引言?? 　　　　随着网络技术的发展，网络上的电子文档数量也迅速增长。如何有效地、更好地帮助用户查找、过滤、管理这些海量数据显得越来越重要，因此，Web文本挖掘技术应运而生。文本挖掘从功能上可以分为分类、聚类、趋势预测等。其中，文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程。从数学的角度看，文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中。?? 　　20世纪90年代以来，出现了构建文本自动分类器的一种新方法，即基于机器学习的文本自动分类器。在这种方法中，一般是通过归纳文本集的特征自动创建一个分类器。这些文档集合事先被领域专家人工地分到各类ci中，类集C={c1，…，cm}，对每一个类ci∈C构建的分类器相互之间独立，每一个分类器都可作为一个规则决定文档dj是否属于类ci。如果类集C被更新，或者系统被转移到完全不同的领域中，所要做的只是从新的人工分类文档集合出发，通过机器学习自动地构造一个新的分类器，而不要求领域专家再重新介入[1]。?? 　　文本自动分类根据应用需求的不同可以划分为基于分类体系的自动分类和基于信息过滤的自动分类。基于分类体系的自动分类其需求是面向特定语言环境，通过获取主题词及其权值来进行归类。它的计算复杂性和涉及的语料范围都有一定限制。目前这种分类方法很具有实用性。基于信息过滤的自动分类通过过滤海量的网络文本资源，给不同类别的用户提供其感兴趣的信息，它要处理的语料数量和语言的深度是极其巨大的[2]。目前应用最广泛的文本表示方式是向量空间模型(vector space model，VSM)，基于该模型的文本分类算法有多种，如简单向量距离分类法、朴素贝叶斯分类法、K最近邻分类法等[3]。这三种分类算法虽然有一定的效果，但受语料库和外部环境的影响较大，如KNN算法的分类精确度受训练集的类别分布情况的干扰，而且也没有考虑到关键词的匹配。本文提出的是一种结合人工神经网络算法和K最近邻算法的新的分类算法，能有效地弥补两种算法各自的缺陷。?? 　　　　1人工神经网络?? 　　　　神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它是基于连接学说构造的智能仿生模型，其组织能够模拟生物神经系统对真实世界物体所作出的交互反应[4]。人工神经网络是一种并行的分布式信息处理结构，它通过称为连接的单向信号通路将一些处理单元(具有局部存储和执行局部信息的处理能力)互连而成。每一个处理单元都有一个单输出到所期望的连接并且分别传送各自的输出信号。每一个处理单元中执行的信息处理在它必须完全是局部的限制下可以被任意定义，即它必须只依赖于处理单元所接受的输入激励信号的当前值和处理单元本身所存储的值[5]。?? 　　人工神经网络技术可以很好地解决传统文本分类方法在实现过程中遇到的一些难题。例如[2]：?? 　　a)在系统输出结果与实际结果相差太大时自动学习，它的学习算法会自动调整系统本身，改变知识的存储。同时由于采用了神经网络技术，系统能自然地实现模糊推理功能。?? 　　b)具有很强的鲁棒性和容错性，善于联想、概括、类比和推广，任何局部的操作均不会影响整体效果。?? 　　c)自适应性神经网络技术能根据所提供的数据，通过学习找出与输出结果之间的内在联系，从而求得问题的解答，而不仅仅依靠对问题的先验知识和规则，因而它具有很好的适应性。?? 　　d)人工神经元网络具有并行处理的特点，运行速度快，因而一方面可存储大量的知识，另一方面又可保持较高的运行速度。?? 　　　　2实验设计与结果?? 　　　　2．1文本特征维度约简?? 　　文本分类的最大困难之一是特征空间的高维性，因此需要选择合适的特征来表示文档。常用的维度约简方法有词条特征选择法和基于空间变换的特征选择法[6]。在文本分类中使用较多的词条特征选择法有文档频率法(document frequency，DF)、互信息法(mutual information，MI)、信息增益法(information gain,IG)、χ2统计法、期望交叉熵法等。传统的TFIDF法是靠统计词条在文本集中出现的次数来决定其重要性。但这种方