- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于boosting算法新闻文本分类研究
基于boosting算法新闻文本分类研究
摘 要
人类历史的发展已经进入到网络时代。现在社会信息的发布量和使用量随着网络的发展突飞猛进,这么大的信息量,我们不可能全部的接受。此时,对有用信息快速、精确的掌握就显得尤为重要。方法是随着困难一起产生的,为了解决这个问题,文本自动分类系统就产生了,它的工作原理是对文本的内容在指定的分类体系下进行自动区分类别的过程。目前在所有分类算法中,有一种新兴的机器学习算法,即Boosting算法,这种算法经过科学验证后,其效果是非常理想的,且本身有着其它分类算法无可比拟的优点。
【关键词】boosting算法 新? 文本分类 研究
所谓文本分类(简称TC),是一种定性文本内容类别的过程,其具体做法是在确定好的文本类别的前提下,对指定的文本内容进行判别归类。随着网络技术的发展,从上世纪90年代开始,传统的文本分类法(知识工程分类法)慢慢的被以计算机学习为基础的自动文本分类法所取代,成为21世纪初进行文本分类的主导技术。这种新的文本分类方法包括最近邻分类、回归模型、决策树、推导规则、贝叶斯分类、神经网络、支持向量机以及相关反馈等内容。另外,近几年比较流行的一种分类方法是组合分类器方法。
1 新闻文本预处理
所谓boosting算法,就是是通过机器学习方法构建自动文本分类器,根据文本训练集的类集C的特征进行学习,使用归纳过程进行分类的一种算法。以计算机学习为基础的自动文本分类法在对文本进行分类时需要一定的形式,称之为特征向量。由于文本内容都是以自然语言来进行表示的,计算机难以对其语义进行理解,为此需要对指定的新闻文本做一下预处理,其具体做法如下:
1.1 对指定新闻文本进行分词
文本包括西文文本和中文文本两种形式,对这两种文本进行分词的方法是不一样的,西文文本分词所采用的方法是用空格作为分隔符放在单词之间;中文文本(包括新闻文本)的分词方法按照依据的基础不同有很多种,例如以字符串匹配为基础的分词方法,以理解为基础的分词方法和以统计词频为基础的分词方法等。其中适合本系统的中文文本分词方法是以统计词频为基础的分词方法。分词完毕后,将会得到一本文本表征词典,此词典是由文档中的词组成的表。
1.2 对指定新闻文本进行粗降维
为了提高文本分类器的训练和分类效率,必须对指定文本在转化特征向量之前进行粗降维。所谓的粗降维,就是删除掉指定文本中的停用词(对分类没有意义且反复出现在文本中的词)和低频词(使用频率极低的词)等,并合并数字和人名,从而使表征词典的规模缩小,避免掉分类时给分类器带来噪音。
1.3 文本表示
我们通常把用向量形式表示文本表征词典的方法称之为文本表示。在进行信息处理时,文本表示采用的方法是向量空间模型。
2 boosting算法下新闻文本的分类
在boosting算法下,新闻文本的分类设计主要由两大系统架构组成。
2.1 自动分类系统的设计
该系统主要的主要任务是对新闻文本进行自动的分类,即通过对文本进行扫描,实现新闻文本的粗降维;同时,通过自动分类的预处理新闻文本,分类完毕后,进行相应的文本输出。该系统虽属于计算机的前台系统,但此系统还可以根据计算机后台系统传递出的分类器号形成新的分类器。
2.2 训练学习子系统的设计
此系统的设计主要是为了通过训练语料库而形成新的分类器。即对语料库进行更新时,该系统会使语料库的训练重新开始,已达到信号能传递至自动分类系统,从而更新分类器的效果。与自动分类系统相对,此系统隶属于计算机的后台运行系统。
3 基于boosting算法的新闻文本分类设计的构成模块
基于boosting算法的新闻文本分类设计的构成模块包括文本预处理、人工分类、文本分词、文本降维和分类器训练五部分。其每个模块有着特定的作用:文本预处理的主要作用是指对文本进行中英文识别,以及转换文本的格式;人工分类的主要作用是指由专家对文本标上类别标签予以分类;文本分词的主要作用是指通过对经过预处理的新闻文本进行高精度的分词,以满足后续算法的需要,并提高后续的分类速度;文本降维的主要作用是通过删除停用词和低频词等对文本分类贡献小的词汇,且避免过匹配问题,来提高程序的效率和运行速度;分类器的主要作用是指对指定的新闻文本的语料进行预处理、分词和降维训练后,得到分类器,并将成功的信号传递到前台系统。
4 基于boosting算法的新闻文本分类试验数据及比较结果
本文算法同常用的分类算法在准确率、查全率以及F测试上的表现如表1所示。
由表1可以看出,在基于boosting算法下新闻文本分类系统的设计是否合理,需要通过准确率、查全率以及F测试值这三个指标来来进行验证。通过反复的测
您可能关注的文档
- 基于ARM与FPGA高速数据采集技术研究.doc
- 基于ARM串口服务器设计与实现.doc
- 基于ARM便携式数字示波器设计.doc
- 基于ARM仓库视频监控系统设计和实现.doc
- 基于ARM便携式晶体管参数测量平台研制.doc
- 基于ARM便携式矿用智能检测仪设计.doc
- 基于ARM健康监测系统网关服务器研究与设计.doc
- 基于ARM全彩LED显示屏控制设计.doc
- 基于ARM农业大棚管理系统.doc
- 基于ARM加工高次非球面控制器研究.doc
- 初中英语人教版七年级上册第四单元Where is my schoolbag ! Section A .ppt
- 初中英语人教版七年级上册第四单元Where is my schoolbag Section B 2.ppt
- 初中英语人教版七年级下册 Unit 6 I'm watching TV. Section A 11a.pptx
- 注册土木工程师培训课件.ppt
- 初中生物济南版七年级上册第一章奇妙的生命现象 第三节生物学的探究方法.ppt
- 初中英语人教版七年级上册第四单元Where is my schoolbag Section B 2.pptx
- 注册安全工程师案例课件.ppt
- 初中物理人教版八年级上册第二章第4节噪声的危害和控制课件(共19张PPT).pptx
- 注册安全工程师王阳课件.ppt
- 初中数学青岛版八年级上2.4《线段的垂直平分线》课件(16张PPT).ppt
原创力文档


文档评论(0)