- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于FastText的新闻文本多分类研究
张超超 卢新明
摘 要:在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。
关键词:文本分类;词向量;FastText;停用词;噪声数据
DOI:10. 11907/rjdk. 192499
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)003-0044-04
Research on News Text Classification Based on FastText
ZHANG Chao-chao, LU Xin-ming
(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)
Abstract:
With the rapid increase of the amount of data, textual data accounts for a large proportion. Text classification, as the most common text mining technology, is of great significance for finding valuable information in a large amount of messy text data. In the field of text classification, the primary goal is to reduce the classification time while ensuring the classification accuracy. Therefore, this paper uses the classification model FastText to learn the word features to solve the current problem. In addition, a stop word processing method is used to reduce the influence of noise data on the classification model. The experimental results show that the accuracy rate of FastText text classification model is 96.11%, which is nearly 4% higher than the traditional model. Furthermore the time spent by the model in processing each text was 1.5m/s on average, which was reduced by about 1/3.
Key Words:
text classification; term vectors; FastText; stop words; noise data
0 引言
文本分類最初使用基于特定规则[1]的方法。先收集关于待分类文本领域内专家知识和经验,将其组织成一系列分类规则[2],然后根据这些分类规则进行文本分类。文献[3]使用基于降噪自动编码器的中文文本分类方法;文献[4]提出一种基于维基百科的文本分类规则。虽然这些分类方法处理特定领域的文本有很好的效果,但概括分类领域所有知识并制定相关分类规则需消耗大量人力成本,所以该类方法适用性较差。此外,当文本无法依照现有规则进行分类时,需重新获取文本并归纳规则再进行分类,因此该类方法泛化性也较差。相比而言,本文FastText模型无需较多人工训练模型,仅对训练数据集作简单的预处理后即可放入模型进行训练,且在新分类任务出现时,模型只需更新迭代训练之后即可完成新任务,大幅降低了人力、物力成本。
随着人工智能的飞速发展,机器学习算法在文本
文档评论(0)