判别大作业-一种基于向量空间模型和类别特征提取的Web新闻自动分类方法讲解.docxVIP

下载本文档

6
0
约8.48千字
约 13页
2017-04-09 发布于湖北
举报
版权申诉

判别大作业-一种基于向量空间模型和类别特征提取的Web新闻自动分类方法讲解.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于向量空间模型和类别特征提取的 Web新闻自动分类方法王某某（北京航空航天大学计算机学院北京 100191）摘要：互联网时代，网络信息呈几何级数激增，对Web新闻的分类提出了更高的要求，即要求能够快速、准确地对Web新闻进行分类。本文通过改进tf-idf算法，提出了一种基于向量空间模型和类别特征提取的文本分类方法，并对Web新闻进行了两级类目（5个一级类目，36个二级类目）分类；通过多次测试，确定了类别特征提取的最佳维度，通过降低新闻关键词向量的维度，一定程度上改善了交叉类别的分类效果，从而实现Web新闻的高效自动分类；最后，通过交叉验证法对分类的效果进行了评价，结果表明本方法在一级类目的分类上有较高的准确率（平均准确率为86.92%），而在二级类目的分类上效果不够理想（平均准确率为58.58%）。关键词：文本分类向量空间模型特征提取中文分词余弦相似度一、研究背景随着国际互联网的高速发展，网络信息呈几何级数激增，CNNIC在其2015年1月发布的《第35次中国互联网络发展状况统计报告》中显示：截至2014年12月，中国网站数量已达到335万个，年增长率为4.6%；中国网页已达到1899 亿个，年增长率为 26.6%[1]。如何将海量的网页信息进行合理的组织，从而帮助网络用户更好的利用互联网资源，是一个亟待解决的问题。在网页信息中，有一类非常重要的信息，那就是Web新闻。随着信息存储技术和网络通信技术的飞速发展，互联网已经成为人们获取新闻信息的重要渠道[2]，同时也已成为最为方便的渠道。当今社会的每时每刻都会出现大量的新闻，这对用户选择自己喜欢的或有价值的新闻造成了困难，因此必须对新闻进行合理的分类。但基于网络新闻信息量大，杂乱无章的特点[2]，传统的人工分类方式，不仅耗费大量的人力和金钱，同时也需要大量的时间。因此有必要借助技术手段来解决新闻分类的问题，以提高工作效率[3]，文本分类技术应运而生。所谓文本分类技术，就是机器学习人工事先制定的规则，再根据规则对给定的文本进行自动的归类。目前已有的文本分类方法基本都是采用基于词语为特征项的向量空间模型[4]。向量空间模型就是通过选择若干带有权重的关键词构成的向量来表示一篇文章的主要内容，但是它有一个最大的缺陷，就是向量的维度难以控制，有的文章可能需要用成百上千的关键词表示，有的文章可能只需要几十个甚至几个关键词就能被概括。文本向量的高维度容易导致数据稀疏、数据噪音等问题，致使文本分类效果较差。因此，在文本分类前，有必要对文本的原始特征进行降维处理[4]。关于向量降维的方法，潘正高等人[4]在他们的论文中运行了一些常用的算法，并在此基础上提出了基于命名实体的降维方法。下文由如下几部分构成：第二部分介绍了本次研究的数据集，包括新闻来源、新闻特征项以及训练集和测试集的选取方法；第三部分介绍了新闻文本向量化的过程，主要包括中文分词、设置词权重、选择关键词构成新闻关键词向量；第四部分详细介绍了类别特征提取的方法：在改进的tf-idf算法的基础上，不断修改类别特征的维度，结合测试结果确定最佳维度；第五部分介绍了一级类目和二级类目的分类方法及测试结果，并通过降低文本关键词的维度改善了交叉类别的分类效果；第六部分介绍了本次研究的创新及不足之处；最后在第七部分对未来的研究加以展望。二、数据集 1 数据来源本次研究选定了中新网[5] IT、财经、教育、军事、娱乐等5个一级类目以及这5个一级类目下总计36个二级类目（各个一级类目以及二级类目的信息见表1），通过编写java网页爬虫抓取新闻，在每个二级类目下最多各抓取500条，抓取新闻的数据项包括新闻标题、新闻内容、新闻发布时间、一级类目、二级类目、编辑、网址，最终共抓取到新闻15951条。（抓取部分结果见表2，每类新闻数量统计见表1）。表 1 中新网一、二级类目下样本抓取数量表表 2 IT类样本抓取部分结果示例 2 训练集和测试集的选取本研究通过交叉验证法来评价分类结果，为此现将数据集分为训练集和测试集。训练集是用来训练（构建）模型的数据集，测试集则是在模型构建结束后用来测试模型性能的数据集。训练集和测试集共同构成了数据集。本次研究在每个二级类目下随机选取80%的新闻作为测试集，剩余20%的新闻作为测试集。在完成新闻自动分类之后，通过交叉验证方法对分类效果进行评价。三、新闻文本向量化文本额分类不同于简单的数字分类，需要先对文本进行预处理，将文本转化为数字向量。为了能够完成类别特征提取以及后期的新闻自动分类，首要的工作就是将新闻文本转化为由带有权重的关键词构成的向量，也就是文本处理领域常用的向量空间模型。文本向量化一般包含如下三个步骤： 1、中文分词（包括文本分词、去除停用词、替换同义词