一种基于决策树的属性加权方法及文本分类方法.pdfVIP

一种基于决策树的属性加权方法及文本分类方法.pdf

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(10)申请公布号CN104820702A

(43)申请公布日2015.08.05

(21)申请号CN201510237748.8

(22)申请日2015.05.12

(71)申请人中国地质大学(武汉)

地址430074湖北省武汉市洪山区鲁磨路388号

(72)发明人蒋良孝张伦干李超群

(74)专利代理机构武汉华旭知识产权事务所

代理人刘荣

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种基于决策树的属性加权方法及

文本分类方法

(57)摘要

本发明提供了一种基于决策树的属

性加权方法,首先用信息增益率标准构建

决策树,然后根据各属性在决策树中测试

的最小深度来计算权值。本发明同时提供

了依托于该基于决策树的属性加权方法的

多项式朴素贝叶斯文本分类方法、依托于

该基于决策树的属性加权方法的补集朴素

贝叶斯文本分类方法,以及依托于该基于

决策树的属性加权方法的多项式与补集相

结合的朴素贝叶斯文本分类方法。本发明

改善了原来的朴素贝叶斯文本分类器分类

精度,同时维持了原来朴素贝叶斯算法的

简洁性和时间复杂度。

法律状态

法律状态公告日法律状态信息法律状态

2021-04-23未缴年费专利权终止未缴年费专利权终止

2018-05-22授权授权

2015-09-02实质审查的生效实质审查的生效

2015-08-05公开公开

权利要求说明书

1.一种基于决策树的属性加权方法,其特征在于包括以下步骤:

(1)对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词

向量形式d=lt;wsub1/sub,wsub2/sub,...wsubm/subgt;,其中

wsubi/sub为文档d中的第i个单词,m为文档d中单词的数目;

利用以下公式计算该训练文档集D中的各个属性的信息增益率:

其中,GainRatio(D,wsubi/sub)表示单词wsubi/sub划分训练文档集D的信

息增益率,Gain(D,wsubi/sub)表示单词wsubi/sub划分训练文档集D的信

息增益,SplitInfo(D,wsubi/sub)表示训练文档集D关于单词wsubi/sub的

分裂信息;

Gain(D,wsubi/sub)通过以下公式计算:

其中,|Dsubv/sub|是训练文档集D中单词wsubi/sub的取值为v的文档数

目,Entropy(D)是训练文档集D的熵,通过以下公式计算:

其中,C是类标记的集合,c是C中的一个类标记,p(c)是训练文档集D中类别为

c的概率;p(c)通过以下公式计算得到:

其中,n是训练文档集D中的文档数目,s是文档的类别的数目,csubj/sub是

第j篇文档的类标记,δ(csubj/sub,c)表示一个二元函数,当它的两个参数相同

时值为1否则为0;

SplitInfo(D,wsubi/sub)通过以下公式计算得到:

(2)用信息增益率作为划分标准建立决策树,所述决策树为二叉树,二叉树在生

长的每一步选择具有最大信息增益率的单词作为测试属性,单词出现的频率为0

或者非0作为测试结果;

(3)遍历决策树,记录每个单词wsubi/sub在决策树中测试的的最小深度

dsubi/sub;

(4)对于训练文档集D中的每个单词wsubi/sub,若其在决策树中出现,则将它

的权值W

文档评论(0)

叶子 + 关注
实名认证
文档贡献者

博士研究生

1亿VIP精品文档

相关文档