基于行业分类标准债券新闻自动多分类.docVIP

基于行业分类标准债券新闻自动多分类.doc

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于行业分类标准债券新闻自动多分类

基于行业分类标准债券新闻自动多分类   【摘要】 本文首先介绍了文本分类的研究背景包括传统的人工分类以及基于文本数据挖掘相关技术的文本分类,接着根据实际需求通过跟踪多家债券主体相关的新闻,基于行业分类标准,完成债券新闻的自动多分类。新闻多分类处理流程包括数据集获取、数据集的预处理、分类算法设计与实现、评估及稳定性检测等方面。   【关键字】 行业分类标准 多分类 数据预处理 人工标记 SVM 交叉验证 算法稳定性   一、研究背景   自上个世纪80年代以来,信息化的浪潮开始席卷全球,特别是互联网技术的不断普及与完善,信息技术迅速地渗透到社会的各个行业领域。近几年,随着网络技术的迅猛发展以及电脑的普遍使用,电子化文档的规模得到了急剧的增长,这些文档都包含了大量的非结构化信息,为了充分利用这些非结构化数据,我们便需要使用相关的文本数据分析技术对其进行处理和利用,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程便是文本数据挖掘[1]。事实上,最近研究表明公司信息有80%包含在文档中[2]。文本数据挖掘正逐渐成为一个热门领域,吸引各大高校以及专家学者不断深入研究。   传统的文本分类是依靠大量的人工完成的。在不同的行业领域,主要依靠专业的人员针对特定的领域进行人工标注与分类。如政府机关人员针对公文的分类、早期图书馆对图书的分类归档,专利部门对专利的分类。著名的国际网站Yahoo曾雇佣一百多名来自各个领域的专家,他们即使满负荷地工作,也没能对每天不断涌现在互联网上新网页进行标注与分类[3]。   本文根据它说债券资讯模块开发的实际需求,通过跟踪4528家债券主体的相关新闻,基于文本分类的相关算法如朴素贝叶斯、K最近邻算法[4]、支持向量机[5]等,最终完成它说债券资讯模块的新闻自动分类的功能。   数据源介绍   本文的新闻文本数据来源于第三方数据库万德数据库的相关表如公司表、行业负面表、行业正面表等,数据采集的规模,采集的时间等具体见如下表1:   二、数据预处理   本文对文本数据做了如下的数据预处理:将每一条数据库记录转化为txt文档;将文本的编码从非UTF-8编码转化为UTF-8编码;过滤掉小于1kb的文档、英文文档及无意义文档;去掉html标记、换行符、多余空格。   三、人工标记   接着,对经数据预处理后的新闻文本数据,按照行业分类标准表根据文档内容对样本数据按分类主题进行人工分类。最终的分类结果如下表2:(Result――19/19/4988)   四、基于多种分类算法新闻模块实现   文本分类算法是构成一个成熟的文本分类系统不可或缺的一个非常重要的部分,基于高效地文本分类算法可以提高文本分类的时效性及准确度。目前比较常用的文本分类算法包括K-最近邻算法、朴素贝叶斯、支持向量机等等。下面简单介绍一下朴素贝叶斯、k最近邻算法及支持向量机。   (1)朴素贝叶斯分类算法。它基于一个前提假设:即在给定的文本类集合中,文本间的属性是独立的,互不影响。对文本分类,就是求该文本在文本类集合中各个类别的概率,概率值最大的那个类别就作为该文本的类别。   (2)K-最近邻计算的是待分类的文本与所有训练文本之间的距离,然后将距离按照从小到大进行排序,返回前K个距离最小的样本,统计这K个样本所属的类别数目,最后将类别数目最大的类别作为待分类文本的类别。   (3)支持向量机,即SVM,它由V.Vapnik提出。可以应用于非线性分类及模式识别,在解决非线性、小样本及高维模式识别等问题中具有很大的优势。它的主要思想是在样本空间中寻找一个最优超平面,从而最大化的将两大类划分开来。   本文使用经数据预处理后剩下的4988条新闻作为最终的样本集,并对样本集进行中文分词处理,构造样本集文本对象,构建样本集TF_IDF词向量空间,然后使用相关分类算法进行预测分类结果。具体的算法流程图如下图1:   五、文本分?评价性能指标   在完成文本分类的训练与测试之后,往往需要对分类算法进行分类性能评估,以确定一个算法的优劣及进行算法之间的性能比较。目前常用的文本分类性能评价指标包括召回率、错分率、准确率、F1-score等。   1、召回率(Recall Rate,也叫查全率):是检索出的相关文本数和文本库中所有相关文本数的比率,衡量的是分类系统的查全率。   召回率(Precision)= 系统检测到的相关文本 / 系统所有相关的文本总数   2、错分率为另外一个角度对召回率的刻画,满足错分率+召回率=1   3、精度(Precision,也称为准确率):是检索出的相关文本数与检索出的文本总数的比率,衡量的是分类系统的查准率。   精度(Precision)= 系统检索到的相关文本 / 系统所有检索

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档