一种多数据融合的空间特征选择方法.docxVIP

一种多数据融合的空间特征选择方法.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种多数据融合的空间特征选择方法 资源选择广泛应用于模式识别和挖掘挖掘领域。同时,它也是一个必须有效解决的重要问题。资源选择是指根据给定规范选择具有良好区分特征的资源收集,或根据特定规范对特征进行分类,以便高效地设计分类器的优化设计。当前的资源选择方法主要是传统的模式识别方法。这些方法主要集中在空间数据的资源提取问题上,并在空间数据环境下讨论资源提取问题。文献中显示了这些方法,但总体研究还不够深入。当应用程序中包含空间数据时,传统的资源选择方法没有充分考虑空间数据的特性,因此资源选择的结果和性能会降低。因此,空间资源选择问题非常复杂。 本文从空间数据特性的角度出发,提出一种新的特征选择方法MEFS(maximum entropy feature selection),并应用到我们研制的空间数据挖掘原型系统Spatial Miner中.MEFS基于最大熵原理,运用互信息和Z-测试技术,采用两步方法进行空间特征选择:首先是空间谓词选择,然后选择与每个空间谓词对应的相关属性集.最后对MEFS方法和RELIEF方法以及基于MEFS的分类方法与ID3算法分别进行了实验比较,结果表明,MEFS方法不仅可以节约特征提取和分类时间,而且也极大地提高了分类质量. 1 最大熵模型的建立 最大熵原理在文献中给出了详细的描述,其基本思想是:给定训练样本,选择一个与训练样本一致的模型.最大熵模型应选择与这些观察相一致的概率分布,而对于除此之外的情况,模型赋予均匀的概率分布. 1.1 yy决策属性对pyyxpyyxp 假设特征选择的分类属性值构成随机过程P所有输出值Y.对于每个y∈Y,其出现均受与之相关的决策属性值x的影响.已知与Y相关的所有决策属性值组成的集合为X,则模型的目标是:对给定的所有决策属性x∈X,计算输出为y∈Y的条件概率,即对p(y|x)进行估计,其中y∈Y且x∈X.因此,特征选择的目的就是从众多决策属性中选择出对分类属性具有明显表征作用的特征. 1.2 概率分布特征 特征选择过程是在抽样数据的基础上,抽样数据来自采样数据库,对空间而言还包含空间数据信息,表示为(x1,y1),(x2,y2),…,(xi,yi),…,(xn,yn).其中,xi表示决策属性,或为空间数据,或为非空间数据,yi是分类属性,是由专家提供的类标号.在训练数据的基础上,可以用概率分布的极大似然对训练样本进行表示.即 其中freq(x,y)表示(x,y)在样本中出现的次数. 1.3 特征与表征函数 定义1(特征).设x∈X且x=w1w2…wn,设c是x的子串(长度≥1),若c对y∈Y具有表征作用,则称(c,y)为模型的一个特征.特征分为原子特征和复合特征.若串c的长度为1,则称(c,y)为原子特征,否则,称(c,y)为复合特征. 定义2(特征函数).特征函数是一个二值表征函数,表示(x′,y′)是否与特征(c,y)有关.定义(x′,y′)关于特征(c,y)的特征函数为 1.4 最大熵法解决足约束条件模型 假设存在n个特征fi(i=1,2,…,n),则模型属于约束所产生的模型集合,即 而满足约束条件的模型有很多,模型的目标是产生在约束集下具有最均匀分布的模型,而条件概率p(y|x)均匀性的一种数学测量方法为条件熵,定义为 其中0 H(p)log|y|. 最大熵原理.若在允许的概率分布C中选择模型,具有最大熵的模型p*∈C即为所选模型.即 2 空间属性选择方法 利用最大熵原理求取空间特征包含特征选择和参数估计.特征选择是选出对分类对象有明显表征作用的属性;参数估计是用最大熵原理对每一个特征进行参数估值,使每个特征对应于一个特征参数.特征参数用来反映决策属性与分类属性之间的关联强度. 本文基于空间数据特性,提出了两步方法进行空间特征选择:谓词提取和相关属性选择.谓词提取选出能够以某种空间谓词(或函数)表征分类对象的数据集.相关属性选择在已选择谓词的基础上,选出依附于该谓词而且能够表征分类对象的非空间属性. 2.1 基于最优模型的相对熵模型 (1)互信息.互信息是测量搭配强度的一个物理量.若某一变量x对y有表征意义,则y与该x的互信息较大计算如下式: (2)Z-测试.我们可以求取变量间的关联强度,但如果特征选择直接确定选择互信息大于某一阈值的上下文信息为特征时,则对于不同互信息的分布,阈值也不相同,这样算法难以操作.我们需要一种方法来进行变换,使得所有变量互信息的分布服从统一的准则.Z-测试正是这样的一个测度,它可以将互信息的分布进行标准变换将其变为标准的正态分布.这样,不论互信息如何进行分布,都可以从一个统一的阈值开始进行求解.计算如下式: 其中Ey表示互信息均值,表示为表示均方差,表示为 (3)IIS.建立最大熵模型的关键是要选出具有预期作用的特征,只有这样才能保证得到

文档评论(0)

186****7870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档