BP神经网络在网页自动分类中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BP神经网络在网页自动分类中应用

BP神经网络在网页自动分类中应用   〔摘 要〕针对信息挖掘中的网页自动分类问题,提出了一种基于向量空间模型和并联BP网络的分类方法。该网络由并行连接的多个子网络组成,每个子网络负责一类模式特征的提取,多个子网并行处理所有模式,将分类结果在总输出层表现出来。以因特网上旅游网页分类为例验证了该方法的有效性。   〔关键词〕数据挖掘;网页分类;神经网络;学习算法   〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821(2009)05-0163-03      BP Neural Network and Its Application in   Web Document Automatic ClassificationZhu Xiuhua   (School of Further Education,Daqing Petroleum Institute,Daqing 163318,China)   〔Abstract〕Aiming to web document classification in data mining,a classification method is presented in this paper.The method is based on vector space model and parallel connection BP neural network.The model includes some parallel connecting sub-networks,each of which accounts for extracting a sort of pattern.Total sub-networks synchronously deal with all patterns,and present classification results in last output layer.The availability of model is proved by classification of some web documents in Internet.   〔Keywords〕data mining;web document classification;neural network;learning algorithm      文本分类是文本信息处理的一个重要研究领域,对提高文本检索、文本存储等应用的处理效率有着重要意义。分类的目的是根据若干已知的规则,构造一个分类函数或分类模型(也常称作分类器),把数据库中的数据项映射到给定类别中的某一个。如何提高文本分类器的识别率和推广能力是这些方法面临的共同问题[1]。目前,不少学者已提出了多种统计方法和机器学习方法,例如,Apte用决策树技术来获取分类器;Yang构造了一种近邻算法进行分类;Lewis采用了一个线性分类器;Cohen设计了一种建立在权值更新基础上的休眠专家算法[2]。人工神经网络理论(Artificial Neural Network)是80年代中后期世界范围内迅速发展起来的一个前沿研究领域。该理论作为人工智能的一个重要分支领域,已显示了它活跃的生命力。近几年来,有关人工神经网络理论的新的研究成果不断涌现,目前我国人工智能及其他相关学科领域的专家、学者在人工神经元网络理论和应用研究方面做出了许多可喜的成绩。除了在语言识别、自动控制等领域应用外,已有实践证明,在文档分类、聚类分析等信息挖掘领域也有着相当高的实用价值[3]。基于向量空间模型的文档分类方法,由于文档特征向量维数一般较高(从几十维到上百维),虽然理论上三层反传播神经网络能够逼近任意非线性映射,但普通反传播神经网络对于高维映射问题往往收敛很慢,且容易发生过拟合现象,使泛化能力受到影响。针对这一问题,本文提出并联BP神经网络模型用于解决文档分类问题,该模型由多个子网并联组成,每个子网负责一类模式。子网的输入只与该类模式特征有关,从而大大降低了文档特征向量的维数。该模型既能分散网络负载,也能加速收敛速度。以中国期刊网全文数据库部分文档数据为例进行实验,应用结果表明了该方法的有效性。      1 文档特征提取      特征提取是文档分类系统中十分关键的问题,文档分类特征选取恰当与否对文档分类的正确性和分类效率有重要影响。一个有效的特征项集,必须具备以下2个特征:(1)完全性,特征项能够体现全部文档内容;(2)可区分性,根据特征项集,能将目标文档同其它文档相区分。特征项集的构造可从构造每篇文档的模糊特征项集开始。如何根据正文的语义提取可近似表示正文语义的特征项集是一个复杂问题,严格讲除了要求理解正文的含义之外,尚需

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档