- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
密级: 保密期限:
硕士研究生学位论文
题目: 基于类别概念的
中文文本分类研究
学 号: 035008
姓 名:
专 业: 电路与系统
导 师:
学 院: 电信工程学院
年 月 日
北京邮电大学硕士学位论文
PAGE 3
基于类别概念的中文文本分类研究
摘 要
网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。
从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。
文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。
向量空间模型是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。
关键词:文本分类 向量空间模型 知网 类别概念
A Study on Category Conception in Text Classification
Abstract
The development of network and the opening of the Internet make it a omnidirectional resource storehouse step by step. More and more information are delivering to everywhere of the world, and more and more information are congregated in internet. At the viewpoint of developmental trend, network will be the main source from which people get information. But the Internet’s organization is very disordered, the information’s hugeness and confusion make it more and more difficult to get interesting information from it.
The task of data mining is mining useful information from a mass of data. Text’s mining is becoming one of the focuses of data mining with the rapid development of the Internet because that text is the main information carrier of web pages. The text classification is the base and center of text’s mining.
Text classification include manua
您可能关注的文档
- 《基于J2EE框架的元器件管理系统项目论文》-毕业论文设计(可用).doc
- 《基于JAVASWING的考试模拟系统论文》-毕业论文设计(可用).doc
- 《基于JSP技术的私家车资费统计系统论文》-毕业论文设计(可用).doc
- 《基于MATLAB光学信息处理结果的模拟论文》-毕业论文设计(可用).doc
- 《基于MCGS的贴面热压机控制系统设计论文》-毕业论文设计(可用).doc
- 《基于MSP430F449单片机的多亮度等级调光灯制作论文》-毕业论文设计(可用).doc
- 《基于PLC的三相反并联整流桥的逻辑控制论文》-毕业论文设计(可用).doc
- 《基于proe的塑料门轴承的注塑模具设计论文》-毕业论文设计(可用).doc
- 《基于Proteus的MCS-51仿真-汽车转变信号灯仿真论文》-毕业论文设计(可用).doc
- 《基于PSAT的电力系统低频振荡分析论文》-毕业论文设计(可用).doc
最近下载
- 煤矿安全管理经验交流(第二版).ppt VIP
- 一级消防工程师《消防安全技术实务》精讲讲义.pdf
- (适用于课堂教学的背景图.ppt VIP
- 天津大学论文答辩PPT模板.pptx VIP
- 生物化学与分子生物学:第13章 真核基因与基因组.ppt VIP
- 2025形势与政策-加快建设社会主义文化强国.pptx
- 人教版(2025)七年级下册Unit1Animal FriendsSection B How are animals part of our lives Section B 1a~2b课件+音频(共3.pptx VIP
- 110kv变电站继电保护毕业设计.doc VIP
- 公路隧道工程施工.pptx
- 电信行业运营商业务连续性保障方案.doc VIP
文档评论(0)