- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
过程神经元网络在网页自动分类中的应用研究
摘要:针对信息挖掘中的网页自动分类问题,提出了一种基于向量空间模型和过程神经元网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。以因特网上旅游网页分类为例验证了该方法的有效性。
关键词:数据挖掘;网页分类;神经网络;学习算法
中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)12-20ppp-0c
Process Neural Network and its Application in Web Document Automatic Classification
SUI Chang-fu
(Teaching Administration Office of Daqing Petroleum Institute at Qinhuangdao,Hebei 066004 China)
Abstract: Aiming to web document classification in data mining, a classification method is presented in this paper. The method is based on vector space model and process neural network. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The availability of model and algorithms is proved by classification of some web documents in Internet.
Key words: Data mining; Web document classification; Neural network; Learning algorithm
1 引言
目前,数字图书馆及与之相关的数据仓库和数据挖掘技术研究已成为全球性的一个热点。这是Internet和万维网发展的必然结果。文档自动分类在数据挖掘中是一项非常重要的任务。分类的目的是根据若干已知的规则,构造一个分类函数或分类模型(也常称作分类器),把数据库中的数据项映射到给定类别中的某一个。分类器的构造有统计方法、机器学习方法等[1]。统计方法包括贝叶斯法和非参数法;机器学习方法包括决策树法和规则归纳法。人工神经网络理论(Artificial Neural Network)是80年代中后期世界范围内迅速发展起来的一个前沿研究领域。该理论作为人工智能的一个重要分支领域,已显示了它活跃的生命力。除了在语言识别、自动控制等领域应用外,已有实践证明,在文档分类、聚类分析等信息挖掘领域也有着相当高的实用价值。近几年来,有关人工神经网络理论的新的研究成果不断涌现,目前我国人工智能及其他相关学科领域的专家、学者在人工神经元网络理论和应用研究方面做出了许多可喜的成绩。过程神经元网络就是很有代表性的一例。该网络模型诞生于2000年,是传统神经元网络在时域上的扩展。目前该网络基本理论已比较成熟。
基于向量空间模型的文档分类方法,文档特征向量维数一般较高(从几十维到上百维),虽然理论上三层反传播神经网络能够逼近任意非线性映射,但普通反传播神经网络对于高维映射问题往往收敛很慢,且容易发生过拟合现象,使泛化能力受到影响。在过程神经网络中,将文档特征向量看作若干个与各个类别对应的过程,将这些过程作为网络输入,从而大大降低了文档特征向量的维数。本文尝试将该网络用于基于特征向量描述的Web文档分类。
2 文档特征提取
特征提取是文档分类系统中十分关键的问题,文档分类特征选取恰当与否对文档分类的正确性和分类效率有重要影响。一个有效的特征项集,必须具备以下两个特征:(1)完全性,特征项能够体现全部文档内容;(2)可区分性,根据特征项集,能将目标文档同其它文档相区分。特征项集的构造可从构造每篇文档的模糊特征项集开始。如何根据正文的语义提取可近似表示正文语义的特征项集是一个复杂问题,严格讲除了要求理解正文的含义之外,尚需有总结概括的能力乃至有较深的领域知识才能较好地解决这个
文档评论(0)