《基于类别概念的中文文本分类研究论文》-毕业论文设计（可用）.docVIP

下载本文档

5
0
约4.79万字
约 61页
2019-01-18 发布于广西
举报
版权申诉

《基于类别概念的中文文本分类研究论文》-毕业论文设计（可用）.doc

1、本文档共61页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

PAGE 密级：保密期限：硕士研究生学位论文题目：基于类别概念的中文文本分类研究学号： 035008 姓名：专业：电路与系统导师：学院：电信工程学院年月日北京邮电大学硕士学位论文 PAGE 3 基于类别概念的中文文本分类研究摘要网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库，越来越多的信息通过互联网被传送到世界各地，互联网中也积聚了越来越多的信息，从发展的趋势来看，网络必将成为人们获取信息的主要来源。但互联网的组织杂乱，缺乏必要的条理，多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体，随着互联网的迅速发展，文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的，这种方式缺点很多，如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后，基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式，它具有周期短，效率高，节省人力资源，分类结果一致性高等优点。但文本自动分类研究开展以来，准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天，为文本分类提供了广阔的发展空间，文本自动分类面临前所未有的机遇和挑战，如何提高分类准确率成为研究热点。向量空间模型是文本自动分类应用最广泛的模型之一，以向量空间模型为基础，我们研究发现，对文本的合理向量表示是实现正确分类非常关键的前提，而传统分类方法中，特征选择算法各有优劣，选择出的特征不能很好地代表文本，这在很大程度上制约了文本分类的准确率。我们以此为出发点，分析特征项应当具备的条件，并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法，它以分析词语的语义概念为主，并且考虑特征的类别信息，选取单类别指示意义强的特征项，建立特征空间。在实验中，我们对相同的数据集，在同一种分类算法上，对传统特征选择方法和我们提出的特征选择方法分别实验，实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。关键词：文本分类向量空间模型知网类别概念 A Study on Category Conception in Text Classification Abstract The development of network and the opening of the Internet make it a omnidirectional resource storehouse step by step. More and more information are delivering to everywhere of the world, and more and more information are congregated in internet. At the viewpoint of developmental trend, network will be the main source from which people get information. But the Internet’s organization is very disordered, the information’s hugeness and confusion make it more and more difficult to get interesting information from it. The task of data mining is mining useful information from a mass of data. Text’s mining is becoming one of the focuses of data mining with the rapid development of the Internet because that text is the main information carrier of web pages. The text classification is the base and center of text’s mining. Text classification include manua