基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight.docxVIP

下载本文档

9
0
约3.98万字
约 42页
2018-05-18 发布于上海
举报

基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight.docx

基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight

第一章绪论§1-1文本分类研究的背景及意义1-1-1文本分类概述文本分类，是指根据文本的内容把文本分成不同的类别，其目的就是对文本集进行合理处理和组织，使得这些文本能够按照类别区分开来。文本分类分为人工分类和自动文本分类。人工分类是比较早期的做法，存在着很多的弊端：一是耗费大量的人力、物力和精力；二是存在分类结果一致性不高的问题。文本自动分类[1]是人工智能技术和信息检索技术相结合的研究领域，是进行基于内容的自动信息管理的核心技术。文本分类有几个步骤：1)分词2)文本表示3)文本词语权重计算方法4)文本分类。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中，通常采用词条作为最小的独立语义载体，原始的特征空间由可能出现在文章中的全部词条构成。而中文的词条总数有二十多万条，这样高维的特征空间对于几乎所有的分类算法来说都偏大。寻求一种有效的特征抽取方法，降低特征空间的维数，提高分类的效率和精度，成为文本自动分类中需要首先面对的重要问题。文本分类的信息绝大部分以文档的形式出现。如何表示这种半结构化和无结构的文本数据类型，使其易于被计算机处理，是文本分类必须面临的最基本的前期工作。词、词组和短语是组成文档的基本元素，并且在不同内容的文档中，各词条出现频率有一定的规律性，不同的特征词条就可以区分不同内容的文本。因此我们可以抽取一些特征词条构成特征矢量，用这个特征矢量来表示文本。一个有效的特征词条集，必须具备以下三个特征：1）完全性：特征词条能够确实表示目标内容。2）区分性：根据特征矢量，能将目标同其它文档相区分。3）精练性：特征矢量的维数应该尽可能的小。在词语权重计算方法后，可以对不同文本的特征词条进行分类文本词语权重计算方法是文本分类的基础，在整个文本分类中处于重要的地位，只有准确的提取文本的特征，让特征代表文本内容，才能够保证正确的文本分类。现在文本词语权重计算方法越来越受到学术界的关注。特征选择主要用于排除确定的特征空间中那些被认为无关的或是关联性不大的特性。于是经常会使用特征独立性假设以简化特征选择，以达到计算时间和计算质量的折衷。词语权重计算方法算法能够删除对分类贡献不大的词条，选择出能够代表文本或类别特征的词条，一方面减少了文本向量的维数，另一方面使特征向量更好代表文本或者类别的特征。文本维数的减少，有利于分类算法的运用，使各种各样的分类算法能够运用到文本分类中，为选择更好的分类算法提供了条件。特征向量更忠实于原文本的特征，能够提高文本分类的精度。1-1-2研究背景及意义在当今的信息社会，随着Internet网的应用不断普及深入，使人们从信息缺乏的时代过渡到了信息极大丰富的时代。当今社会的信息突出表现为：信息量急剧增加，各种电子文本形式的情报源所提供的信息量正以惊人的速度递增；信息结构更加复杂，WWW网上包含的信息以文本、图像、视频等多媒体格式存在；信息的全球化，要求处理与传递信息的速度加快。面对玩Internet上日益膨胀的信息，如何快速、准确地从浩瀚的信息资源中寻找到所要的狭小领域内的相关内容就成了一项十分有意义的课题。正是在这样的背景之下，基于机器学习(Machinelearning)、文本分类(TextCategorization) 正逐渐成为一个日益重要的研究领域。特别是Internet上在线信息的增加，文本分类显得越来越重要。它对于网上资源有效共享、提高工作效率、更进一步地普及Internet等网络通信都具有极其现实的意义。由于分类可以在较大程度上解决目前网上信息杂乱的现象，方便用户准确地定位所需的信息和分流信息。因此，文本分类己成为一项具有较大实用价值的关键技术，是组织和管理数据的有力手段。近年来，文本分类技术[2]己经逐渐与搜索引擎(searchengine) 、信息推送(Information push)、信息过滤(Informationfiltering)等信息处理技术相结合，有效地提高了信息服务的质量。文本分类同时还可被用于抽取符号知识、新闻分发、排序电子邮件以及学习用户兴趣。它是信息检索、机器翻译、自动文摘、信息过滤等技术的基础。一个优秀的检索系统必须建立在良好的文本分类上，许多WWW索引系统(如Yahoo)在对下载的web 文本进行索引前，需要对文本分类处理，以便于用户的查找和提高检索的性能和效率。其实这点很容易理解，如果被检索的文本己经分类，而后在与用户要求相关的文本类别内进行检索，则可大大降低检索空间，从而提高检索的速度和检索系统的性能。传统的文本分类建立在手工分类的基础之上的，这种手工分类的做法存在着许多弊端：一是耗费大量的人力，物力和精力。二是存在分类结果与要求的不一致。即使分类人的语言素质较高，对于不同的人来分类，其分类结果仍然不尽相同。甚至同一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight.docxVIP