5多标签分类模型的构建-计算机与信息技术学院.doc

下载文档 降价啦

6
0
约1.46万字
约 13页
2017-05-26 发布于天津
举报
版权申诉
保障服务

5多标签分类模型的构建-计算机与信息技术学院.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

5多标签分类模型的构建-计算机与信息技术学院

基于软模糊粗糙集模型的多标签文本分类内容提要随着互联网技术的迅猛发展，电子文档很多需要被标记为多个类标签，即划分到多个类别范畴中。当前，对多标签文本分类的研究主要针对特征的选取和分类算法。本文借鉴处理不确定性问题的软模糊粗糙集模型，将其应用于多标签文本的分类问题。通过将多标签文本语料根据文档频率进行特征提取，采用TF-IDF特征表示方法，将特征词集表示成向量空间模型的形式，使数据更加结构化。同时，基于粗糙集理论，采用了软模糊粗糙集模型，并对其加以改进，使其具有处理多标签问题的能力。然后利用这种模型对文本进行类别的划分，得到每个测试文档的类标签集合。最后采用多标签分类特有的评价标准对分类结果进行评估。关键词软模糊粗糙集，多标签，文本表示，分类算法 1 引言随着网络信息传播的高效性以及人们对电子文档使用的频繁性，各类论坛、门户网站、电子商务网站，以及近年发展起来的微博等，都处于蓬勃发展的状态。同时，各类电子文档已成为这些网络信息传播的有效载体。然而，现实世界中，很多电子文档的内容都是包含多个主题类别的，从文本分类的角度来看，就是文本的多标签问题。面对各类微博网站的蓬勃发展，微博短文本内容与日俱增，更加严峻的任务需要我们来解决。由于微博内容的复杂性，主题的多样性，用户兴趣的广泛性，当我们需要对这类网络文本数据的主题进行分析处理，为得到用户的关注类型及偏好提供帮助时，首先需要研究这类多标签文本的分类问题。对于一篇微博、博客或是新闻文档，考虑它的主题类别时，可能会认为它谈论的是政治方面的内容，但它却延伸到军事或是经济方面的内容。在对这类文本进行分类时，就需要为它标定多个类别标签，然后再对它进行分析处理。文本分类技术对于大量文档的归类问题提供了很好的推动作用。因此，研究多标签文本分类问题具有非常重要的现实意义。当前，对于多标签分类，大多数是理论算法的研究。关于分类方法，主要有两种方式，一是问题的转换，二是算法的适应性。大多数情况下，多标签文本分类算法都是用在英文文本语料上。现今网络上的中文电子文档等数据中也存在着大量需要被当作多标签问题来解决的文本语料。因此，能够从网络上的电子文档中抽取大量的多标签文本语料，用于对中文文本的多标签分类研究，这对自然语言的学习研究是必要的。粗糙集理论已经在特征选择、属性约简、规则学习等实际应用中取得了很好的实际效果。大量实验表明，基于模糊粗糙集的软模糊粗糙集模型在处理噪声和错误标记的样本方面具有很好的效果。本文通过对软模糊粗糙分类器的改进，使其扩展为可以处理多标签分类问题的模型，并将其应用于中文多标签文本分类中，拓宽了粗糙集理论在自然语言处理领域的应用。 2 相关工作文本分类是自然语言处理的一个重要分支领域，它通过分析文本内容并运用统计学方法加以处理，使得计算机能够对待分类文档实现自动划分到若干个较合适的类别中的目的，从而达到便于文本组织管理、智能检索以及信息过滤等应用的结果。随着电子文本信息量的急剧增长，文本内容的多样化，只能确定文本单一类别的单标签学习已经难以满足人们对分类的需求。因此，多标签文本分类以其特有的灵活性与实用性吸引了大多数研究学者的注意力。近年来，多标签分类作为多标记学习中的一个重要问题，越来越受到研究学者的关注。Tsoumakas等人[1]将现有的多标签分类算法归结为两类：算法适应方法和问题转化方法。典型的算法适应方法有AdaBoost.MH算法[2]、人工神经元网络[3]、Boosting 算法[4]等。典型的问题转化方法有：LP（Label Powerset）算法[5]、BR（Binary Relevance）算法[16]、RAKEL（Random k-labelsets）算法[6]等。一些学者已经对粗糙集理论进行了较为深入的研究，提出了软粗糙集、软模糊粗糙集等概念。为了能够好的解决模糊粗糙集模型对噪声敏感的问题，胡清华等人[7][8]在软间隔SVM的启发下，将基于软阈值的抗噪方式引入到模糊粗糙集模型中，给出了软距离的概念，提出了软模糊粗糙集模型，并基于软模糊下近似隶属度设计了一种单标签的分类模型，被称为软模糊粗糙分类器。由于软模糊粗糙分类器是通过取得待分类样本对某一类别的下近似隶属度，从中选取具有最大隶属度的类标签来标定该样本的类别，对多标签分类来说，将该模型做一定的改造，赋予隶属度合适的阈值，即可把这种针对单标签数据的分类模型改造为可以对多标签数据进行分类的有效分类模型。当前，粗糙集理论在文本分类方面的应用，大多数是利用粗糙集在属性约简方面的优越性。卢娇丽、郑家恒等曾利用粗糙集理论对属性优越的约简特性将其应用于文本分类方面[9]，并取得了很好的效果。但由于只是针对单标签文本的分类，限制了粗糙集的应用范围。安爽[10]在其博士论文中，以稳健的