- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于向量空间模型和类别特征提取的
Web新闻自动分类方法
王某某
(北京航空航天大学 计算机学院 北京 100191)
摘 要:互联网时代,网络信息呈几何级数激增,对Web新闻的分类提出了更高的要求,即要求能够快速、准确地对Web新闻进行分类。本文通过改进tf-idf算法,提出了一种基于向量空间模型和类别特征提取的文本分类方法,并对Web新闻进行了两级类目(5个一级类目,36个二级类目)分类;通过多次测试,确定了类别特征提取的最佳维度,通过降低新闻关键词向量的维度,一定程度上改善了交叉类别的分类效果,从而实现Web新闻的高效自动分类;最后,通过交叉验证法对分类的效果进行了评价,结果表明本方法在一级类目的分类上有较高的准确率(平均准确率为86.92%),而在二级类目的分类上效果不够理想(平均准确率为58.58%)。
关键词:文本分类 向量空间模型 特征提取 中文分词 余弦相似度
一、研究背景
随着国际互联网的高速发展,网络信息呈几何级数激增,CNNIC在其2015年1月发布的《第35次中国互联网络发展状况统计报告》中显示:截至2014年12月,中国网站数量已达到335万个,年增长率为4.6%;中国网页已达到1899 亿个,年增长率为 26.6%[1]。如何将海量的网页信息进行合理的组织,从而帮助网络用户更好的利用互联网资源,是一个亟待解决的问题。
在网页信息中,有一类非常重要的信息,那就是Web新闻。随着信息存储技术和网络通信技术的飞速发展,互联网已经成为人们获取新闻信息的重要渠道[2],同时也已成为最为方便的渠道。当今社会的每时每刻都会出现大量的新闻,这对用户选择自己喜欢的或有价值的新闻造成了困难,因此必须对新闻进行合理的分类。但基于网络新闻信息量大,杂乱无章的特点[2],传统的人工分类方式,不仅耗费大量的人力和金钱,同时也需要大量的时间。因此有必要借助技术手段来解决新闻分类的问题,以提高工作效率[3],文本分类技术应运而生。所谓文本分类技术,就是机器学习人工事先制定的规则,再根据规则对给定的文本进行自动的归类。
目前已有的文本分类方法基本都是采用基于词语为特征项的向量空间模型[4]。向量空间模型就是通过选择若干带有权重的关键词构成的向量来表示一篇文章的主要内容,但是它有一个最大的缺陷,就是向量的维度难以控制,有的文章可能需要用成百上千的关键词表示,有的文章可能只需要几十个甚至几个关键词就能被概括。文本向量的高维度容易导致数据稀疏、数据噪音等问题,致使文本分类效果较差。因此,在文本分类前,有必要对文本的原始特征进行降维处理[4]。关于向量降维的方法,潘正高等人[4]在他们的论文中运行了一些常用的算法,并在此基础上提出了基于命名实体的降维方法。
下文由如下几部分构成:
第二部分介绍了本次研究的数据集,包括新闻来源、新闻特征项以及训练集和测试集的选取方法;
第三部分介绍了新闻文本向量化的过程,主要包括中文分词、设置词权重、选择关键词构成新闻关键词向量;
第四部分详细介绍了类别特征提取的方法:在改进的tf-idf算法的基础上,不断修改类别特征的维度,结合测试结果确定最佳维度;
第五部分介绍了一级类目和二级类目的分类方法及测试结果,并通过降低文本关键词的维度改善了交叉类别的分类效果;
第六部分介绍了本次研究的创新及不足之处;
最后在第七部分对未来的研究加以展望。
二、数据集
1 数据来源
本次研究选定了中新网[5] IT、财经、教育、军事、娱乐等5个一级类目以及这5个一级类目下总计36个二级类目(各个一级类目以及二级类目的信息见表1),通过编写java网页爬虫抓取新闻,在每个二级类目下最多各抓取500条,抓取新闻的数据项包括新闻标题、新闻内容、新闻发布时间、一级类目、二级类目、编辑、网址,最终共抓取到新闻15951条。(抓取部分结果见表2,每类新闻数量统计见表1)。
表 1 中新网一、二级类目下样本抓取数量表
表 2 IT类样本抓取部分结果示例
2 训练集和测试集的选取
本研究通过交叉验证法来评价分类结果,为此现将数据集分为训练集和测试集。训练集是用来训练(构建)模型的数据集,测试集则是在模型构建结束后用来测试模型性能的数据集。训练集和测试集共同构成了数据集。本次研究在每个二级类目下随机选取80%的新闻作为测试集,剩余20%的新闻作为测试集。在完成新闻自动分类之后,通过交叉验证方法对分类效果进行评价。
三、新闻文本向量化
文本额分类不同于简单的数字分类,需要先对文本进行预处理,将文本转化为数字向量。为了能够完成类别特征提取以及后期的新闻自动分类,首要的工作就是将新闻文本转化为由带有权重的关键词构成的向量,也就是文本处理领域常用的向量空间模型。文本向量化一般包含如下三个步骤:
1、中文分词(包括文本分词、去除停用词、替换同义词
您可能关注的文档
- 地面瓦斯抽放泵站事故应急处理预案c8概要.doc
- 物质的分散系(最终课件)1111解读.ppt
- 六上册扇形统计图例1讲解.ppt
- 地面沉降ppt概要.ppt
- 地面辐射供暖概要.doc
- 场内道路施工方案概要.docx
- 地面气象测报业务系统软件的使用概要.ppt
- 六西格玛绿带培训分析关键因素讲解.ppt
- 物质的性质和变化案例1导学设计案例解读.ppt
- 场地平整工程施工方案概要.doc
- 2025年新疆克孜勒苏柯尔克孜自治州单招职业倾向性考试题库附答案.docx
- 2025年新疆克孜勒苏柯尔克孜自治州单招职业适应性考试必刷测试卷及参考答案.docx
- 2025年新疆交通职业技术学院单招职业技能测试题库带答案.docx
- 2025年新疆伊犁哈萨克自治州单招职业倾向性测试题库完美版.docx
- 2025年新疆乌鲁木齐市单招职业适应性考试题库推荐.docx
- 2025年新疆乌鲁木齐市行政职业能力测验题库必考题.docx
- 2025年新疆克孜勒苏柯尔克孜自治州行政职业能力测验题库及答案1套.docx
- 2025年新疆乌鲁木齐市行政职业能力测验模拟试题审定版.docx
- 2025年新疆乌鲁木齐市单招职业倾向性考试必刷测试卷1套.docx
- 2025年新疆乌鲁木齐市行政职业能力测验题库及答案1套.docx
最近下载
- 2025年最新人教版八年级(初二)数学上册教学计划及进度表(新课标,新教材).docx
- 【SPD】医院器械耗材SPD管理技术方案.pptx VIP
- 2025版SA8000-2025社会责任体面工作国际标准管理体系内部审核全套资料 .pdf VIP
- 中华优秀传统文化-配套课件.ppt
- 医院耗材spd管理制度 .pdf VIP
- 湘美版三年级美术上册《1. 老师,您好》教学设计.docx VIP
- 2025年广东中考数学题分析评析 .pdf VIP
- 【SPD】医院器械耗材SPD管理技术方案.pptx VIP
- 三措两案管理制度.docx VIP
- 田广林高教社中国传统文化概论(第三版)教学课件第四章 中国传统宗教.pptx VIP
文档评论(0)