最新中文文本分类算法研究.pdfVIP

下载本文档

292
0
约7.25万字
约 66页
2018-05-05 发布于浙江
举报
版权申诉

最新中文文本分类算法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最新中文文本分类算法研究

V 来了时间和金钱上的巨大浪费。另外，大量有害和无用的信息也威胁着社会各个行业的发展。如何在海量数据环境下有效地管理并快速地检索所需的数据，成为信息科学领域迫切需要解决的问题，各种信息检索技术也孕育而生。数据的形式是多种多样的，自然语言形式的数据是人们最为关心的数据形式之一，作为人类思维的载体和人们交流的主要工具，它蕴含着丰富的数据量和人的主观思想。作为语言的明文形式，自然语言文本存在着语法、语义、文字等等众多不统一因素，由于这些特殊性，对于自然语言文本的分类过去主要由领域专家和语言专家来完成，这种人工方法周期冗长、费用高昂、效率低下，逐渐不能适应信息爆炸时代的需求。随着技术的发展，将自然语言文档自动分类成若干主题的类别这一项工作作为一门 Text 新兴的学科发展了起来，称为自动文本分类(AutomaticClassification)，为简洁起见，本文将自动文本分类简称为文本分类(Text 定的分类体系下，根据文本的内容自动地确定与文本关联的类别【l】。文本分类技术不仅仅解决了用户准确查找数据的需求，也在很大程度上降低了网络信息的杂乱特征。所以，文本分类技术的出现受到了计算机和自动化领域内专家、学者和工程师们的广泛重视。从语言学角度来看，文本分类属于自然语言处理的领域；从计算机学科角度来看，文本分类属于模式识别和机器学习的领域；从信息学角度来看，文本分类属于信息处理的领域。进而继续推广，文本分类被认识为许多技术的基础，如搜索引擎、信息过滤、情报分析、情感分析，等等。因此，文本分类技术有着广泛的应用前景，是一项具有较大研究价值的关键性技术。由于文本分类问题首先在国外被提出，中文的文本分类工作起步比较晚，而根据统计，人类文明史上80％以上的知识和信息均由文本形式留存，在计算机应用方面，用于数学计算的仅占10％，用于过程控制的不足5％，85％以上的应用都与文字和语言处理相关。可以说，在信息化的现代社会，语言信息的处理技术水平是衡量整个社会信息化水平的重要标志，发展中文的文本分类，具有很强的实际意义。 l绪论硕士论文 1．2国内外研究现状 1．2．1国外研究现状国外文本分类研究起步比较早，在上世纪50年代末起就开始研究。1957年，类工作，开创了文本分类的先河。1960年，Maron等发表了题名为(Onrelevance， andinformation probabilisticindexing retrieva／))的关于自动分类的第一篇论文，正式标志着文本分类作为一个独立的研究课题出现在了世界上【2】。此后大量的学者和研究人员在这一领域提出了很多具有创新性的研究，总的来说，文本分类国外的技术性发展历程可以分为两个大的阶段：， 1)60年代至80年代，基于知识工程技术的方法。这种分类方法必须通过人工定义分类规则来对待分类文本进行分类，需要依赖于某一领域的专家，花费时间和人力较多，必须对于分类领域有较为深入的了解，才能构建出合适的分类规则。这一阶段比较典型的系统有卡耐基为路透社开发的Construe新闻分类系统等【3J。 2)80年代后期至今，基于机器学习的方法。随着机器学--J(MachineLearning)的发展，机器学习方法为主的信息自动分类技术渐渐取代了过去的知识工程方法，成为了文本分类的主流研究方法，这种基于机器学习的方法可以避开专家领域，比较典型的方法有朴素贝叶斯、决策树、K最近邻、神经网络、支持向量机等等，这些基于机器学习的分类方法大大提高了组建文本分类系统的效率并提高了分类精度和速度，已经成为文本分类的主流方法并且进入到了实际应用阶段。目前普遍认为，K最近邻方法和支持向量机方法是文本分类中效果最好的方法。近年来，文本分类的主流研究基本上围绕着文本表示方法、特征的约简、分类器融合、分类器改进等几个方向，研究目标也越来越细化，如特征选择、分类器融合等技术也作为单独的研究领域拥有了一大批研究学者，也涌现出了很多卓有成效的研究成果。 Joachims提出了基于支持向量机的文本分类算法，并且证明这种方法比其他方法更适合方法来进行分类【5】。Nigam等使用最大期望算法(EM)