基于粒度计算数据分类建模研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粒度计算数据分类建模研究

基于粒度计算数据分类建模研究   摘 要:基于粒度计算在理论上对数据分类问题进行建模研究。引入全粒度空间的概念,给出了集合的粒度表示、概念学习在粒度计算理论中的解释,从而得到数据分类问题的机理分析;最后导出了基于数据分类的知识发现模型,为知识发现面临的问题提供解决的理论依据,也为进一步研究奠定了重要的理论基础。   关键词:数据分类; 粒度计算; 数据库中的知识发现; 建模   中图分类号:TP311.13文献标志码:A   文章编号:1001-3695(2007)03-0037-04      0 引言   粒度计算是信息处理的一种新的概念和计算范式,它覆盖了所有有关粒度的理论、方法、技术和工具的研究[1],现已成为人工智能领域研究的热点之一。这种计算理论符合人类解决问题的智力思维特征。人类正是采用这种由粗到细不断求精的多粒度分析法避免了计算复杂度高的困难,使得原来看似非多项式难解的问题迎刃而解[2]。??   目前,研究得较多且较成熟的一种粒度计算理论是商空间理论 [3]。在该模型中,用三元组(X, f,T)来描述一个问题。其中X是论域; f:X→Y表示论域上元素的属性;Y可以是n维空间,也可以是一般的集合;T是论域的结构,它表示论域中各元素之间的关系,将论域中的子集当做新的元素(粒度)进行研究。用数学术语来讲,就是先对X进行划分而得到商集[X]后,再对[X]进行研究。该计算理论的优点是,它使得对问题的解决摆脱了一些烦琐而非关键的过程,抓住问题的本质,以便从适当的层次(粒度)来研究问题的解,从而可以快速获得问题的精确解或近似解。   知识发现研究领域中尚存在许多理论问题有待解决 [4,5]。粒度计算为其中某些问题的解决提供了一种新的途径。知识发现的过程实际上就是粒度计算的过程,知识的形成过程本质上是在知识空间中搜索信息粒度的过程。不同领域的应用在期待着从历史数据中得到自己的答案,将信息粒度(的语义)变为知识。然而,不同的应用目的对信息粒度的层次和大小有不同的需求,其解释(语义)也因此存在差异。例如,在数据挖掘中对数据仓库处理时提出分层(Hie ̄rarchy)概念,从不同的粒度中得到不同层次的信息和知识,以满足人们对不同层次知识的要求[6],即发现用户真正感兴趣的知识。更重要的是,粒度计算可以在不同层次粒度的研究中提供深入的数学分析理论,是研究不同粒度世界的一种新型的数学工具,具有完备的理论基础。   数据分类(Data Classification)是数据挖掘的一个重要任务。它可以分为两个过程:①根据给定的样本数据集或概念集(在粒度计算中通常又称为信息系统、决策系统等),用设计的算法创建一个模型;②使用模型进行分类、预测等。显然,后一过程属于应用,关键是前一过程,即算法的设计。当前的研究主要集中于算法的效率和准确率,但对此并未取得根本性的突破,而更多的是针对算法的技巧性改进,不具一般指导意义。本文的研究是希望从知识发现的代数和几何理论体系中去探讨,寻求对问题解决的一般性原则。本文主要是基于粒度计算的有关理论和方法对数据分类问题进行建模,为进一步研究奠定重要的理论基础。      1 基本概念   在信息系统〈U, A〉中,利用信息函数fa在论域U上构造一个关于属性集BA的关系RB,定义为   易知,U上的任一等价关系均可以形成U的相应等价划分。把等价关系B形成的等价划分记为PB,或记为商集的形式U/B。   本文主要是研究基于数据分类的知识发现,从全局的高度对知识所在的空间进行分析,以找出独立于具体算法的一般性规律。所以,与本文中提到的信息系统对应的论域U是指实际系统在其生命周期内所有可能的全部数据的集合,也称为问题全域。      2 集合的粒度表示及概念学习   2.1 集合的粒度表示   如果信息系统〈U, A〉的所有基本元都是一元基本元,那么对任意X??U,X均可精确粒度表示。因为对任意s∈X,{s}都是粒度,从而∪s∈X{s}是X的极小精确粒度表示。但是,这些粒度的支持度都是1/|U|,为最小值。一般地,采用基本元来构造一个集合的精确粒度表示,这在实际应用中是没有意义的。实际上,在精确粒度表示中,粒度的支持度越大越好,这会使粒度表示更具一般性和适应性。但是对于大粒度,相应的表示可能无法保证精确,这也是粒度产生的原因之一。因此,需要考虑集合近似的极小粒度表示,这往往更具实际应用价值。??   通常,X的精确粒度表示是难以建立的,而建立其近似粒度表示往往就显得较为实际,即在可接收的误差范围内以近似粒度表示的描述作为X的描述。   2.2 概念学习   概念包括内涵和外延,如果知道一个未知概念的外延X的粒度表示,那么由定理2就可以得到该概念的内涵??DES(X)??,从而形

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档