基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight.docxVIP
- 9
- 0
- 约3.98万字
- 约 42页
- 2018-05-18 发布于上海
- 举报
基于词语权重的中文文本分类算法的分析-analysis of chinese text classification algorithm based on word weight
第一章绪论§1-1文本分类研究的背景及意义1-1-1文本分类概述文本分类,是指根据文本的内容把文本分成不同的类别,其目的就是对文本集进行合理处理和组织,使得这些文本能够按照类别区分开来。文本分类分为人工分类和自动文本分类。人工分类是比较早期的做法,存在着很多的弊端:一是耗费大量的人力、物力和精力;二是存在分类结果一致性不高的问题。文本自动分类[1]是人工智能技术和信息检索技术相结合的研究领域,是进行基于内容的自动信息管理的核心技术。文本分类有几个步骤:1)分词2)文本表示3)文本词语权重计算方法4)文本分类。文本自动分类问题的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。在中文文本分类中,通常采用词条作为最小的独立语义载体,原始的特征空间由可能出现在文章中的全部词条构成。而中文的词条总数有二十多万条,这样高维的特征空间对于几乎所有的分类算法来说都偏大。寻求一种有效的特征抽取方法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先面对的重要问题。文本分类的信息绝大部分以文档的形式出现。如何表示这种半结构化和无结构的文本数据类型,使其易于被计算机处理,是文本分类必须面临的最基本的前期工作。词、词组和短语是组成文档的基本元素,并且在不同内容的文档中,各词条出现频率有一定的规律性,不同的特征词条就可以区分不同内容的文本。因此我们可以抽取一些特征词条构成特征矢量,用这个特征矢量来表示文本。一个有效的特征词条集,必须具备以下三个特征:1)完全性:特征词条能够确实表示目标内容。2)区分性:根据特征矢量,能将目标同其它文档相区分。3)精练性:特征矢量的维数应该尽可能的小。在词语权重计算方法后,可以对不同文本的特征词条进行分类文本词语权重计算方法是文本分类的基础,在整个文本分类中处于重要的地位,只有准确的提取文本的特征,让特征代表文本内容,才能够保证正确的文本分类。现在文本词语权重计算方法越来越受到学术界的关注。特征选择主要用于排除确定的特征空间中那些被认为无关的或是关联性不大的特性。于是经常会使用特征独立性假设以简化特征选择,以达到计算时间和计算质量的折衷。词语权重计算方法算法能够删除对分类贡献不大的词条,选择出能够代表文本或类别特征的词条,一方面减少了文本向量的维数,另一方面使特征向量更好代表文本或者类别的特征。文本维数的减少,有利于分类算法的运用,使各种各样的分类算法能够运用到文本分类中,为选择更好的分类算法提供了条件。特征向量更忠实于原文本的特征,能够提高文本分类的精度。1-1-2研究背景及意义在当今的信息社会,随着Internet网的应用不断普及深入,使人们从信息缺乏的时代过渡到了信息极大丰富的时代。当今社会的信息突出表现为:信息量急剧增加,各种电子文本形式的情报源所提供的信息量正以惊人的速度递增;信息结构更加复杂,WWW网上包含的信息以文本、图像、视频等多媒体格式存在;信息的全球化,要求处理与传递信息的速度加快。面对玩Internet上日益膨胀的信息,如何快速、准确地从浩瀚的信息资源中寻找到所要的狭小领域内的相关内容就成了一项十分有意义的课题。正是在这样的背景之下,基于机器学习(Machinelearning)、文本分类(TextCategorization) 正逐渐成为一个日益重要的研究领域。特别是Internet上在线信息的增加,文本分类显得越来越重要。它对于网上资源有效共享、提高工作效率、更进一步地普及Internet等网络通信都具有极其现实的意义。由于分类可以在较大程度上解决目前网上信息杂乱的现象,方便用户准确地定位所需的信息和分流信息。因此,文本分类己成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。近年来,文本分类技术[2]己经逐渐与搜索引擎(searchengine) 、信息推送(Information push)、信息过滤(Informationfiltering)等信息处理技术相结合,有效地提高了信息服务的质量。文本分类同时还可被用于抽取符号知识、新闻分发、排序电子邮件以及学习用户兴趣。它是信息检索、机器翻译、自动文摘、信息过滤等技术的基础。一个优秀的检索系统必须建立在良好的文本分类上,许多WWW索引系统(如Yahoo)在对下载的web 文本进行索引前,需要对文本分类处理,以便于用户的查找和提高检索的性能和效率。其实这点很容易理解,如果被检索的文本己经分类,而后在与用户要求相关的文本类别内进行检索,则可大大降低检索空间,从而提高检索的速度和检索系统的性能。传统的文本分类建立在手工分类的基础之上的,这种手工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力。二是存在分类结果与要求的不一致。即使分类人的语言素质较高,对于不同的人来分类,其分类结果仍然不尽相同。甚至同一
您可能关注的文档
- 基于产业链视角的四川现代中药产业发展分析-analysis on the development of modern chinese medicine industry in sichuan from the perspective of industrial chain.docx
- 基于产业结构调整的兵团人才结构优化分析-optimization analysis of corps talent structure based on industrial structure adjustment.docx
- 基于产业链视角的旅游企业竞争优势分析-analysis on competitive advantages of tourism enterprises from the perspective of industrial chain.docx
- 基于产业链延伸的中小企业并购分析——以泰鑫公司并购江林公司为案例-analysis of m & a of small and medium-sized enterprises based on the extension of industrial chain - a case study of taixin company's m & a of jianglin company.docx
- 基于产业链整合的株洲高新区公共服务体系建设分析-analysis of zhuzhou high - tech zone public service system construction based on industry consolidation.docx
- 基于产业内贸易的河北省农业发展分析-analysis of agricultural development in hebei province based on intra-industry trade.docx
- 基于产业融合的农村景观生态补偿设计研究——以四川省成都市青羊区马厂村农业园区为例-research on rural landscape ecological compensation design based on industrial integration - a case study of machang village agricultural park in qingyang district, chengdu city, sichuan prov.docx
- 基于产业生命周期的企业策略性行为的研究——以我国彩电业为例-research on strategic behavior of enterprises based on industrial life cycle - taking china's color industry as an example.docx
- 基于产业生态视角的建筑产业健康评价分析-analysis of health assessment of construction industry based on industrial ecology perspective.docx
- 基于产业生态学的创意产业集群形成机制分析-analysis of formation mechanism of creative industrial clusters based on industrial ecology.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 2025江苏农牧科技职业学院单招数学能力检测试卷含答案详解(典型题).docx VIP
- 2025年黑龙江艺术职业学院单招语文测试模拟题库通用题库.docx VIP
- 2026年上海市初三语文一模试题汇编之古诗文阅读(教师版).docx
- 2025年江苏农牧科技职业学院单招(语文)测试试卷.docx VIP
- 《数据管理能力成熟度模型》DCMM评估内容及流程.pptx VIP
- 2025黑龙江艺术职业学院单招《英语》考前冲刺练习试题(夺冠)附答案详解.docx VIP
- (2026年)危重患者体位管理PPT课件.pptx VIP
- 2026年上海市初三语文一模试题汇编之现代文阅读(教师版).docx
- 2025黑龙江艺术职业学院单招《数学》模拟试题含完整答案详解【全优】.docx VIP
- 人教版|六年级下册体育全册教案.docx
原创力文档

文档评论(0)