基于改进BP网络中文期刊论文分类方法.docVIP

下载本文档

2
0
约4.43千字
约 10页
2018-08-29 发布于福建
举报
版权申诉

基于改进BP网络中文期刊论文分类方法.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于改进BP网络中文期刊论文分类方法

基于改进BP网络中文期刊论文分类方法　　关键词：BP网络；论文分类；特征提取　　摘要：文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源，计算特征项的权值，设定阀值对特征项向量进行降维处理，最后利用BP神经网络对不同的阀值分别进行分类实验，比较其效果。　　中图分类号:TP391文献标识码：A文章编号：1003-1588（2014）05-0061-03 　　　　收稿日期：2014-03-11 　　作者简介：张瑾（1970-），郑州轻工业学院图书馆馆员。1序言　　1960年，Maron发表了第一篇自动分类文章，将贝叶斯定理运用于文本自动分类，标志着自动分类技术的正式产生［1］。1998年，JoachimsT将支持向量机算法应用于文本自动分类［2］，Yang Y.和Chute C.G两位学者提出了 K邻近的分类方法［3］。相对于国外，国内的文本自动分类研究起步相对较晚，基于机器学习技术的自动分类也是目前我国文本自动分类领域的主流。国内学者的研究对象主要是中文文本自动分类，国内学者学习并应用了各种分类算法，并根据中文的特点构建了我国的中文文本自动分类体系［4］。刘锋将径向基神经网络模型应用到了XML文本的自动分类中［5］。胡清华提出了可变精度的粗糙集模型，引入精度的概念，提高了处理不一致信息的能力［6］。　　笔者将文本分类技术应用到期刊论文的自动分类中，根据期刊论文的特点，在选择数据上进行改进，同时对传统的BP网络算法进行改进，构建分类系统，从大规模期刊论文中提取分类的信息，并验证其分类的可行性。　　2期刊论文分类的问题描述　　期刊论文分类的任务是：在给定的分类体系下，根据论文的主题自动确定论文的类别。从数学角度看，期刊论文分类是一个映射过程，它将未知分类的论文映射到已有的类别中。该映射可以是单映射，也可以是一对多映射。笔者为了简化问题，采用一对一映射。　　论文分类的映射规则是系统根据已经掌握的每个类别的很多样本数据信息，总结出分类规律而产生的分类规则，完成分类器的构建。输入未知类别的论文，根据分类规则确定其相应的类别。　　3数据预处理　　3.1空间模型　　为了使计算机能够自动分类，必须先将论文转换为计算机可以识别的格式，笔者采用向量空间模型（即VSM）。其基本思想是以向量模式表示一篇论文：（W1，W2，W3，…，Wn），其中Wi为第i个特征项的权重。　　论文在结构上由题名、作者、摘要、关键词及正文等组成，笔者认为这些信息中能够为论文分类提供依据的有题名、摘要和关键词。笔者采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS (Institute of computing Technology，Chinese Lexical Analysis system ) ，对题名和摘要进行分词，然后进行停用词剔除，将得到的词语和关键词一起组成特征项。　　在文本自动分类研究中，计算特征项的权值时一般采用TF-IDF算法来计算，笔者采用另外一种方式计算特征项权值，即特征项出现在题名中时其权值为3，出现在关键词中权值为5，出现在摘要中权值为2。在正常情况下特征项在题名中重复的概率很低，故不考虑出现的频率。但在摘要中的特征项重复的概率较高，频率为m，在计算特征权值时，其权值为2*m。因特征项可能即出现在题名中又出现在关键词或摘要中，此时设定权值取最大值。　　3.2特征提取　　对期刊论文进行向量空间表示之后，特征空间的维数会很大，因此必须进行特征抽取。特征抽取可以降低空间维数，简化计算，防止过度拟合。特征抽取常用的方法有：文档频率法、信息增益、相互信息法和x2统计法等。笔者采用一个新的方法即设定一个阀值，剔除小于阀值的特征项，保留大于阀值的特征项。　　3.3期刊论文类别　　目前中国知网的期刊论文的类别是依据《中国图书馆分类法》进行人工标引获得的分类号。《中国图书馆分类法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码，用一个字母代表一个大类，以字母顺序反映大类的次序，在字母后用数字作标记。为适应工业技术发展及该类文献的分类，对工业技术二级类目，采用双字母。例如：分类号TP391代表信息处理（信息加工）。　　4改进BP神经网络分类器　　传统BP网络具有思路清晰、结构严谨、工作状态稳定、可操作性强等特点，并且由于隐层节点的引入，使得一个三层的非线性网络可以以任意精度逼近任何连续函数，从而在模式识别、非线性映射、复杂系统仿真等许多领域得到广泛应用。但存在几个缺陷［7］：①传统的BP网络既然是一个非线性优化问题，这就不可避免地存在局部极小问题。②学习过程中，学习速度缓慢，易出现