多关系的约简及其聚类的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
栾鸾:多关系的约简及聚类研究 摘.要 由于现实世界的数据大多存放在关系数据库中,近年来多关系数据挖掘受到越 来越多研究人员的重视,而多关系分类和聚类都是多关系数据挖掘中的重要技术。 在进行多关系分类时,由于关系数据库结构的复杂性,所以对其中的表和属性进行 选择是有必要的,需要删除掉一些对最终分类并无太大影响的表和属性,这样可以 在保证一定分类准确度的同时,提高了分类效率。而在对多关系目标表中元素进行 聚类时,最主要是能较为精确的计算出目标表中任意两个对象之间的关系距离,这 样才能提高聚类的准确度。本文主要利用奇异值分解、典型相关分析等数学理论对 多关系中的数据进行分类和聚类。主要研究工作包括: 1)基于协方差系数矩阵对关系数据库各表中的特征进行选择。构建每张表对应 的协方差系数矩阵,其中协方差系数矩阵中的元素代表这张表中任意两个属性之间 的相关性,对这样的协方差矩阵进行奇异值的分解,给定一个阈值名,将对应的奇 异值小于名的属性都删除,只利用奇异值大于五的属性对未知元组分类。 2)研究基于表的关联度或贡献度的多关系分类,利用典型相关分析方法判断多 关系中的各个非目标表与目标表之间的关联度并得到一系列分类关键属性或定义关 系数据库中各表的贡献度,约简部分对最终分类影响不大的表,并在对各表进行查 找时按照其与目标表关联度从大到小的顺序或者按照贡献度从大到小的顺序依次遍 历其中的分类关键属性。 3)研究如何计算多关系目标表中对象与对象之间的关系距离,从而对目标表中 的对象进行聚类。目标表中对象之问的关系距离不仅与本张表中的属性有关,也与 和目标表相关联的非目标表中属性有关。通过给每张非目标表设定不同的权值,较 为精确地得到目标表中任意对象之间的距离。 关键字:多关系;分类;聚类;准确度;奇异值分解;典型相关分析 栾鸾:多关系的约简及聚类研究 III Abstract 111 the ofthedataarestored inrelational in real。world,most recent database,SOyears, multi—relationdata attentionfrommoreandmore mininggets and areboth inmulti—relationdata clustering importanttechniques tothe mining.Due of the is to structure,it choose thetablesand complexity necessary among attributesinthe of classification.Sometablesandattributeswhich process havelittleeffectonthefinal resultshouldbedeleted.ItCallboth the and the guarantee accuracyimprov

文档评论(0)

lyxbb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档