基于信息增益中文文本关联分类.docVIP

下载本文档

7
0
约8.89千字
约 18页
2018-08-28 发布于福建
举报
版权申诉

基于信息增益中文文本关联分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于信息增益中文文本关联分类

基于信息增益中文文本关联分类　　摘要：关联分类是一种通过挖掘训练集中的关联规则，并利用这些规则预测新数据类属性的分类技术。最近的研究表明，关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度一置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则，忽略了文字的分类有效性。本文提出一种新的ACIG算法，结合信息增益与FoilGain在中文文本中选择规则的文字，以提高文字的分类有效性。实验结果表明，ACIG算法比其他关联分类算法(CPAR)有更高的准确率。　　关键词：计算机应用；中文信息处理；信息增益；关联分类；文本分类　　中图分类号：TP391 　　文献标识码：A 　　　　1 引言　　　　中文文本分类是中文信息处理的经典研究方向之一，有着极其重要的应用价值。中文文本分类的核心技术是构建一个具有高准确度和较高速度的分类器，它从文本训练集中学习文字属性和分类标号之间的关系，从而实现对新的中文文本(标号未知)的分类。中文文本分类在中文信息检索、档案管理和中文新闻主题追踪等方面都有重要应用。目前，主要的中文文本分类方法有基于粗糙集的分类方法[1]、基于Bootstrapping模型的分类方法[2]、朴素贝叶斯分类方法[3]以及支持向量机分类方法[4]等。　　近年来，一种结合关联规则挖掘和分类规则挖掘的关联分类算法[5―7]引起人们的广泛关注。关联分类算法结合了关联规则挖掘过程和分类规则挖掘过程，比传统的分类方法如C4.5[8]和Ripper[9]有更好的分类效果。这种关联分类算法通过在训练集中挖掘关联规则来对未知标号文本进行分类。它一般包含三个步骤：　　(1)规则提取：利用数据挖掘算法，从训练集中挖掘满足用户指定的最小支持度要求的候选规则集；　　(2)规则裁剪：评价所有的候选规则，保留满足用户指定最小置信度的规则，构造分类器；　　(3)分类：从分类器中选出最好的分类规则，对未知类标号文本进行分类。　　传统的关联分类算法大多关注于通过频繁项集选取规则文字属性。规则属性的选取依赖于用户指定频繁项集的最小支持度，忽略了构成规则的属性的分类有效性。容易造成阈值指定依赖经验，不能突出文字的分类有用性等问题。尽管一些文献后来提出的FoilGain[10]对文字选取做了很大的改进，但效果还是不够理想。本文采用基于信息增益的关联分类算法ACIG(Associative Classification Basedon Information Gain)对中文文本进行分类。提取分类规则时，结合信息增益的特点选取分类效果更好的文字作为规则的文字属性，而不仅仅是选择满足最小支持度的频繁项，从而避免了上述问题。　　　　2问题陈述与基本定义　　　　2.1文本特征表示　　绝大多数现有的文本分类器都采用向量空间模型[11]来表示文本。设D是一个包含m篇文档的文档集合，即D=(d1，d2，…，dm)，i-=1，2，…，m。其中对于任意的一个di∈D，文档d，可以表示为特征向量空间中的一个n维向量。即d=(di1di2，…，din)，i=1，2，…，m；j=1，2，…，n，为特征向量di的第j个特征词。其中特征词通过计算词条的信息增益，设定一个阈值，移除低于特定阈值的词条，保留高于某个阈值的词条，作为文档的特征词。　　　　2．2基本定义　　A=f｛A1，A2，…，Ak}是数据属性的集合，V[A]=f｛υ1，υ2，…，υl｝是所有属性的值域(其中每一个连续属性和文字属性都已经离散化为分类属性)，让C＝f｛c1，c2…，cm}是所有可能的类别标号集合。设T是一组记录，T中的每一条记录￡表示为(A1，A2，…，Ak)，其中A1，A2，…，Ak是记录f的属性。　　定义1文字l(Literal)。一个文字声是一个属性一值对，记为(Ai，υ)其中A是一个属性，υ是一个值。当且仅当ti=υ时，一条记录t满足一个文字p(Ai，υ)，其中ti是记录t的第i条属性的值。　　这里，我们使用向量空间模型表示文本特征，特征词不带权值。因此，在本文中，文字(literal)与特征词(词条)不作区分。　　定义2规则r(Rule)。一条规则r有形式“p1∧p2∧…∧pi→c”。由文字p1，p2，…，l，与类标号c连接组成。当且仅当一条记录t满足规则r的所有文字时，称记录t满足规则r。假如记录t满足规则r的所有文字，则可以预测记录￡的类标号为f。　　关联分类的任务就是从训练集中发现这样的关联规则，它的前提p1∧p2∧…∧pl，而它的结论是类别标号c，并用这样的规则集构造分类器，对新数据对象进行分类。　　　　2．3存在问题　　传统的关联分类算法有以下缺点：　　(1)规则的文字选取