面向新闻文本的分类方法的比较研究.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向新闻文本的分类方法的比较研究 摘要: 文本分类是根据文档内容将文档分类为预定义类别的过程。文本分类是文本检索系统的必要要求,文本检索系统响应用户的查询检索文本,而文本理解系统以某种方式转换文本,如生成摘要,回答问题或提取数据[1]。本文中将运用朴素贝叶斯、支持向量机、K最近邻、fastText这4种方法来进行新闻文本分类,并比较了各种算法的分类性能、复杂度等方面的优缺点,最后评述了精确度和时间2种分类器常用的性能评价指标[2]。 关键词: (School of Computer, Xian Shiyou University, Xian 710065, China) Abstract: Text classification is the process of classifying documents into predefined categories based on the content of the documents. Text classification is a necessary requirement for a text retrieval system. A text retrieval system responds to a users query to retrieve text, and a text understanding system converts text in some way, such as generating a digest, answering a question, or extracting data[1]. This paper applies such four methods as Nave Bayes, SVM, KNN and fastText for news text classification, then compares the advantages and disadvantages in classification performance and complexity, as well as other aspects among the aboved methods. Finally, the paper comments on performance evaluation indicators commonly used in two classifiers, which are the accuracy and time[2]. 引言 为大量数据集建立快速准确的分类器是数据挖掘和知识发现的重要任务。随着互联网的飞速发展,网上涌现海量的文本文件,而且每天都在不停增长[3]。而这些文件中包含着大量容易获取的信息。从这些文本中获取信息,人工的方式耗时且准确率低,因此文本分类技术即已尤显其在该类技术研发上的基础高效作用。本文中运用了4种方法对文本进行分类处理,数据集是从网易新闻爬取的各类主题文本集,运用的方法具体涉及了朴素贝叶斯(Nave Bayes, NB)、支持向量机(Support Vector Machine, SVM)、K最近邻(K-Nearest Neighbor, KNN)和fastText,并最终针对4种方法在精确度和时间消耗性能方面展开了研究比较与分析。 1文本分类 分类问题在数据库、数据挖掘和信息检索领域已经获得了日趋广泛的研究应用。这里,关于分类问题的定义可表述为: 研究中有一组训练记录D={X1,…,Xn},每个记录都具有对应的从{1…k}索引的k个不同离散值集合中的类别值的标记。训练数据将用于构建分类模型,并将基础记录中的特征与类别标签之一相关联[4]。对于未知类别的给定测试数据,使用训练模型来预测此实例的类别标签。在分类问题的硬版本中,特定的标签将明确分配给实例,而在分类问题的软版本中,概率值将分配给测试实例。分类问题的其它变化允许对不同类别的选择构建排序测试实例,或允许将多个标签分配给测试实例[5]。同时文本分类过程需要对文本数据进行分词、去停止词等预处理,接着将选用特征提取和特征加权,而后提送训练环节得到分类器后,再对测试集开启测试,最后是对分类器性能进行评估。 2相关技术 2.1文本预处理 在本文实验中,文本预处理分为2步。对其内容可阐释如下。 (1)分词。将汉字序列切分成单个独立的词,实验中使用的是日文分词器MeCab。该分词系统是基于条件随机场的模型,解析精度很高。据分析可知,中文和日文有着相似的分词需求,因此MeCab 对于中文处理而言,则呈现出良好的借鉴价值。 (2)去停止词。停止词就是那些没有真实意义,或者当句子中去除这些词,也不会改变句子含义的词,例如:“的”、“了”、“啊”等。将其去除

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档