基于模糊软集合理论的文本分类方法汇总.ppt

下载文档 降价啦

11
0
约4.24千字
约 16页
2017-07-02 发布于湖北
举报
版权申诉
保障服务

基于模糊软集合理论的文本分类方法汇总.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于模糊软集合理论的文本分类方法摘要：为提高文本分类精度，提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式，通过约简、构造软集合对照表方法找出待分类文本所属类别，并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法，有效地解决了上述问题。与传统的 KNN 和 SVM 分类算法相比，模糊软集合方法在文本分类的精度和准度上都有所提高。关键词：文本分类；软集合；模糊软集合；特征选择；互信息 1 概述软集合理论是学者于 1999 年提出的一种新的处理不确定、模糊及未被清楚定义的对象的数学工具。目前被广泛应用处理不确定性问题的数学理论和工具有：概率论，模糊集理论，区间数学，粗糙集等，但是所有这些理论和结果都有其不完善的方面，产生这些问题的主要原因在于参数化工具的不足。而软集合理论就是处理不确定性且不存在上述问题的强有力数学工具。当前，有越来越多的学者投入到软集理论及应用的研究，有文献对软集的基本理论进行了研究，并给出软集在决策中的一些应用；Cheng 和 Tsang 给出了基于软集理论的属性约简方法并和粗糙集中的属性约简作了相应的比较；有文献在考虑增加属性及次优选择问题上给出了正则化属性约简原理并给出相应的约简算法；Zhou 和 Xiao给出使用软集来分析不完备信息系统的方法。文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术，数量巨大的训练样本和过高的向量维数是文本分类的 2 大特点。这 2 个特点决定了文本分类问题是一个运算时间和空间复杂度很高的问题。目前产生一些可用的分类系统，并取得了一定的成果，但仍然存在很多尚未解决的问题，文本分类算法的研究不完整、文本的特征选择和特征抽取方法有待进一步改进，基于此，本文首先在文本特征选择阶段提出一种新的基于正则化互信息的特征选择算法，然后结合软集合理论与文本分类的特点提出一种基于软集合理论的文本分类新方法。为了叙述方便，给出软集合相关理论：定义1 设U是给定的论域，E 是一个参数集，一个集合对 (F,E)被称为域U上的一个软集合(soft set)当且仅当F是E到所有的U子集中某集合的映射，如 F:E → P(U)，其中，P(U )是U的幂集。软集合是U的子集的一个参数族。该参数族中每个集合F(ε)(ε∈ E)可以看成软集合(F,E)的ε个元素的集合，或者是软集合的ε个相似元素的集合。定义2 若有一个二元运算符，记为*，(F,A) 与(G,B)为论域U上的 2 个软集，那么在软集上的运算*可以定义为：(F,A) * (G,B)= (H,A×B)，其中，H(α,β)= F(α)* G(β),a ∈ A, b ∈ B,A×B是集合A与集合B的笛卡尔集。 2 软集合相关理论定义3 P(U)为U上所有模糊集，E 为一参数集，Ai ? E，集合( Fi , Ai )被称为U上的一个模糊软集当且仅当 Fi 是Ai到P(U)的一个映射，如 : Fi: Ai → P(U) 。定义4 一个信息系统可以形式化为 S=(U,A)，其中,U为对象的非空有限集合；A 为属性的非空有限集合，并且使得满足对于任意的 a ∈ A有 :a:U → Va,V为属性 a 的值域。定义5 对模糊软集(F,E), E ={e1,e2,…,em}，若存在E的子集 A ={e`1,e`2,…,e`p}满足，则A不是必要的,否则A是必要的。若B是必要的且 ,则B为E的一个正则化约简，即E-B是满足fE-B( .)为一常数的E的最大子集。文本分类中的训练集的向量维数往往非常庞大，可以达到几万维，所以，要对维数进行压缩是文本分类的主要任务之一，它一方面提高了程序的效率和运行速度，另一方面也是关键的方面，由于各个类别都普遍存在对分类没有多大影响的词，因此去掉那些词不仅能压缩维数，而且还能把对分类起代表性的词体现出来，提高了分类精度。本文采用正则化互信息特征选择方法(NMIFS)，并且提出一种贪心选择算法对文本集进行特征选择，该方法既考虑了特征与类别的互信息，也计算了特征与特征之间的互信息，解决了文本中相近的特征同时被选择而导致的性能下降问题，并且能够得到较优的特征子集，具体算法如下：设给定输入数据χ含N个样本，每个样本有M个属性F={fi,i=1,2,…,M}, 目标类别变量为c,特征选择问题就是要找出最能刻化c的一个含有m个特征{fi}的特征子集 S,NMIFS第m个特征选择公式如下： 3 基于 NMIFS 的特征选择算法算法1