判别大作业-一种基于向量空间模型和类别特征提取的Web新闻自动分类方法教程
PAGE13 / NUMPAGES13
一种基于向量空间模型和类别特征提取的
Web新闻自动分类方法
王某某
(北京航空航天大学 计算机学院 北京 100191)作者简介:王某某,北京航空航天大学研究生 邮箱:bnuwjx@163.com。
摘 要:互联网时代,网络信息呈几何级数激增,对Web新闻的分类提出了更高的要求,即要求能够快速、准确地对Web新闻进行分类。本文通过改进tf-idf算法,提出了一种基于向量空间模型和类别特征提取的文本分类方法,并对Web新闻进行了两级类目(5个一级类目,36个二级类目)分类;通过多次测试,确定了类别特征提取的最佳维度,通过降低新闻关键词向量的维度,一定程度上改善了交叉类别的分类效果,从而实现Web新闻的高效自动分类;最后,通过交叉验证法对分类的效果进行了评价,结果表明本方法在一级类目的分类上有较高的准确率(平均准确率为86.92%),而在二级类目的分类上效果不够理想(平均准确率为58.58%)。
关键词:文本分类 向量空间模型 特征提取 中文分词 余弦相似度
一、研究背景
随着国际互联网的高速发展,网络信息呈几何级数激增,CNNIC在其2015年1月发布的《第35次中国互联网络发展状况统计报告》中显示:截至2014年12月,中国网站数量已达到335万个,年增长率为4.6%;中国网页已达到1899 亿个,年增长率为 26.6% REF _Ref470518923 \r \h \* MERGEFORMAT [1]。如何将海量的网页信息进行合理的组织,从而帮助网络用户更好的利用互联网资源,是一个亟待解决的问题。
在网页信息中,有一类非常重要的信息,那就是Web新闻。随着信息存储技术和网络通信技术的飞速发展,互联网已经成为人们获取新闻信息的重要渠道 REF _Ref470518948 \r \h \* MERGEFORMAT [2],同时也已成为最为方便的渠道。当今社会的每时每刻都会出现大量的新闻,这对用户选择自己喜欢的或有价值的新闻造成了困难,因此必须对新闻进行合理的分类。但基于网络新闻信息量大,杂乱无章的特点 REF _Ref470518948 \r \h \* MERGEFORMAT [2],传统的人工分类方式,不仅耗费大量的人力和金钱,同时也需要大量的时间。因此有必要借助技术手段来解决新闻分类的问题,以提高工作效率 REF _Ref470519035 \r \h \* MERGEFORMAT [3],文本分类技术应运而生。所谓文本分类技术,就是机器学习人工事先制定的规则,再根据规则对给定的文本进行自动的归类。
目前已有的文本分类方法基本都是采用基于词语为特征项的向量空间模型 REF _Ref470519089 \r \h \* MERGEFORMAT [4]。向量空间模型就是通过选择若干带有权重的关键词构成的向量来表示一篇文章的主要内容,但是它有一个最大的缺陷,就是向量的维度难以控制,有的文章可能需要用成百上千的关键词表示,有的文章可能只需要几十个甚至几个关键词就能被概括。文本向量的高维度容易导致数据稀疏、数据噪音等问题,致使文本分类效果较差。因此,在文本分类前,有必要对文本的原始特征进行降维处理 REF _Ref470519089 \r \h \* MERGEFORMAT [4]。关于向量降维的方法,潘正高等人 REF _Ref470519089 \r \h \* MERGEFORMAT [4]在他们的论文中运行了一些常用的算法,并在此基础上提出了基于命名实体的降维方法。
下文由如下几部分构成:
第二部分介绍了本次研究的数据集,包括新闻来源、新闻特征项以及训练集和测试集的选取方法;
第三部分介绍了新闻文本向量化的过程,主要包括中文分词、设置词权重、选择关键词构成新闻关键词向量;
第四部分详细介绍了类别特征提取的方法:在改进的tf-idf算法的基础上,不断修改类别特征的维度,结合测试结果确定最佳维度;
第五部分介绍了一级类目和二级类目的分类方法及测试结果,并通过降低文本关键词的维度改善了交叉类别的分类效果;
第六部分介绍了本次研究的创新及不足之处;
最后在第七部分对未来的研究加以展望。
二、数据集
1 数据来源
本次研究选定了中新网 REF _Ref470519199 \r \h \* MERGEFORMAT [5] IT、财经、教育、军事、娱乐等5个一级类目以及这5个一级类目下总计36个二级类目(各个一级类目以及二级类目的信息见表1),通过编写java网页爬虫抓取新闻,在每个二级类目下最多各抓取500条,抓取新闻的数据项包括新闻标题、新闻内容、新闻发布时间、一级类目、二级类目、编辑、网址,最终共抓取到新闻
您可能关注的文档
- 初三2016暑期英语语法基础教程.doc
- 初三化学下册复习知识点(家教版)(老师)教程.doc
- 初三化学知识点总结(章节复习)教程.doc
- 初三化学各单元知识点小结教程.doc
- 初三化学知识点总结归纳(完整版)2教程.doc
- 初三化学下册知识点全教程.doc
- 110KV线路跨越客专高架桥施工工法要点.doc
- 初三复习用字词:八年级上册文言文考点突破教程.doc
- 初三物理《热和能》中考易错题(五)教程.doc
- 初三数学温州模拟卷(含试卷,答题卷,答案)教程.doc
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)