- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用BP神经网络实现中文文本分类.doc
用BP神经网络实现中文文本分类
摘 要: 文本分类是文本挖掘的一个重要内容,在很多领域都有广泛的应用。为了实现中文文本分类问题,先采用分词技术和TF-IDF算法得到每一篇中文文档的特征向量,然后采用PB神经网络构造一个中文文本分类器。实验证明,采用BP神经网络进行中文文本分类时,虽然存在学习周期长,收敛速度慢等问题,但其分类速度和分类的正确率还是很高的。因此,采用BP神经网络进行中文分类是一个比较好的方法。
关键词: 中文文本分类; BP神经网络; 中文分词; 文档特征向量
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)11-58-04
Abstract: Text classification is an important part of text mining, and it has been widely used in many fields. In order to realize the Chinese text classification, the feature vector of each document is obtained by using the word segmentation technique and TF-IDF algorithm, and then a Chinese text classifier is constructed by BP neural network. Experiment results show that using BP neural network to Chinese text categorization, although there are problems such as a long learning period, slow convergence and so on, the classification speed and classification accuracy rate is quite high. Therefore, using BP neural network to classify Chinese is a good way.
Key words: Chinese text classification; BP neural network; Chinese word segmentation; document feature vector
0 引言
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别,文本分类是文本挖掘的一个重要内容。目前,在国内已经对中文文本分类进行了广泛研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步应用。
BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,BP神经网络在分类问题上有着非常广泛的应用,是目前应用最广泛的神经网络模型之一。BP神经网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。其学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。
研究文本自动分类的核心问题是如何构造分类函数(分类器),分类函数需要通过某种算法进行学习获得。现在比较流行的分类算法有Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法等,这些算法各有千秋。当然,这些分类算法同样适用于中文文本分类算法。出于对中文文本分类算法的兴趣,本文采用PB神经网络算法完整地实现了中文文本的分类。实验证明,采用该算法进行中文文本分类时,虽然存在学习周期长,收敛速度慢等问题,但其分类结果具有分类速度快、分类正确率高等特点。
用BP神经网络实现中文文本分类,其过程如图1所示。该方法主要包括学习和分类两大部分,所涉及到的主要技术包括中文词典构建和查找算法、中文文档分词算法、TFIDF特征向量权值计算算法和BP神经网络算法。
1 采用BP神经网络构建中文文本分类器
1.1 分词和去掉停用词
采用最大逆向分词算法对训练文档集中的每一个文档进行分词,并根据停用词表去掉一些常用的停用词,通过分词得到所有训练文档集的特征词表Dt(每个特征词条都不相同)和每个文档的特征词空间Dk(
您可能关注的文档
最近下载
- 2025年抖音本地生活服务业务深度分析报告 .pdf VIP
- 广西壮族自治区资源县农业局公务员招录事业单位招聘考试录用96人大全(含答案).docx VIP
- 清水河储能电站施工方案.doc VIP
- 2025至2030年中国美甲产业竞争现状及发展前景预测报告.docx
- 《新媒体营销》教学大纲.docx VIP
- 幼儿园小学生姓名卡片姓名贴纸.docx VIP
- 郑州市第四十七中学新初一分班(摸底)语文模拟试题(5套带答案).doc VIP
- 《边城》ppt.ppt VIP
- 2024凉山州专业技术人员继续教育公需科目-提升常态化监管水平,大力发展数字经济,支持平台经济发展试题及满分答案.docx VIP
- 口腔根尖周炎病例分析.pptx VIP
文档评论(0)