基于粗糙集的WEB文本特征约简.docVIP

下载本文档

2
0
约3.54千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

基于粗糙集的WEB文本特征约简.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于粗糙集的WEB文本特征约简　　摘要:为了得到用户满意的文本特征约简,在粗集理论属性约简技术的基础上,提出文本特征选择的新方法RSUA。RSUA方法采用用于关联规则挖掘的Apriori算法的思想进行决策表的约简。实验验证了RSUA方法的有效性。　　关键词:RSUA;粗糙集;Web 　　中图分类号:TP301文献标识码:A文章编号:1009-3044(2009)32-9052-02 　　Selece Eigenvectors Form Documents Based on Rough Set Reduction Algorithm 　　LI Hong-xia, YI Li-ping 　　(School of Computer, Jiangxi Aviation Vocational Technical College, Nanchang 330024, China) 　　Abstract: The paper discuss a new method(RSUA) for selece eigenvectors form documents based on rough Set Reduction. It put forward a mining model of association rules with decision attributes based on Apriori. 　　Key words: RSUA; Rough Set; Web 　　网络的快速发展给人们带来大量信息,网页中最主要的信息资源是文本,WEB挖掘就是针对网上大量文本信息进行知识发现、知识表示的研究领域。由于构成文本的原始词汇量往往非常巨大,一般为几万甚至几十万,所以文本的原始特征项空间也非常巨大,这样大的特征空间对许多分类算法来说是很难处理的,在实际应用中系统运行速度也对特征空间的压缩提出了要求。对文本原始特征空间的压缩一般使用特征选择或特征提取方法。　　文本挖掘的一个重要问题就是高维的特征空间,这些特征空间是由文本中的词或词组构成的,许多传统算法难处理。　　1 算法的设计思想　　关联规则是关联分析中的一种常见的技术,是寻找在同一个事件中出现的不同项的相关性。挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则。在利用粗糙集的决策表进行数据分析,决策属性的选取很重要,对一个问题当有多个影响因素时,通过关联规则得到一些符合最小支持度和最小可信度的一些规则,从中可以发现一些规则,这样可以根据决策规则的条件,作为粗糙集决策表的决策属性,利用粗糙集进行运算,得到这一决策属性的相关因素。　　而利用粗糙集进行分析时,可以约简冗余属性,缩小考虑范围,同时验证或从另一角度对同一问题进行分析。另外,粗糙集可以处理含有不一致、噪声、不完备的数据,比关联规则具有更广的使用范围。粗糙集的约简中,将关联规则挖掘和粗糙集理论结合起来,引入关联规则中的支持度概念,并重新定义了这个概念。　　在决策表DT中,t为条件属性,s为决策属性,规则t=s的基数card(t=s)称作规则t=s的支持度,记为sup(t=s);属性t的基数card(t)称作属性t的支持度,记为sup(t)。　　假如一条规则t=s的sup(t=s)=sup(t),则称该规则是确定性规则;假如一条确定规则的支持度大于用户指定的最小支持度,称这条规则为强确定性规则。　　这里主要讨论决策表中的强确定性规则,提出算法RSUR,该算法采用用于关联规则挖掘的Apriori算法的思想进行决策表的约简,即“频繁项集的所有非空子集都必须也是频繁的”,也就是:假如规则t=s不是强的,则它的扩展tΛp=s也不是强的。算法根据用户指定的最小支持度,利用Apriori性质删除低于最小支持度的规则,得到强确定的规则表。　　2 算法的描述　　算法RSUA的算法描述如下: 　　输入:决策表DT,最小支持度minup; 　　输出:所产生的规则集。　　步骤一:对决策表进行属性约简; 　　步骤二:K赋值为1; 　　步骤三:计算候选集CK中每个属性的属性支持度和规则支持度; 　　步骤四:若规则支持度小于最小支持度,则将其从CK中删除;若该规则的属性支持度等于规则支持度,则将该规则移入规则集Pk; 　　步骤五:将CK扩展为CK+1,首先扫描CK,将CK中的每两项合成具有K+1个属性的候选项,插入CK+1中。接着检查CK+1中的每一项C,若C的K子集中有不在CK中的项,则将C删除;若C是不相容的,将C删除。最后得到CK+1,将K赋值为K+1; 　　步骤六:循环调用三至五步,直到CK为空; 　　步骤七:结束。　　3 实验结果　　为了验