《列名与数值不确定情况下的模式匹配问题研究》.pdfVIP

  • 3
  • 0
  • 约2.22万字
  • 约 5页
  • 2015-11-15 发布于河南
  • 举报

《列名与数值不确定情况下的模式匹配问题研究》.pdf

《列名与数值不确定情况下的模式匹配问题研究》.pdf

第 41卷 第 8期 计 算 机 科 学 Vol-41No.8 2014年 8月 Computer Science Aug2014 列名与数值不确定情况下的模式匹配问题研究 黄冬梅 冯 恺 赵丹枫 郭颖新 (上海海洋大学信息学院 上海 201306) 摘 要 模式匹配是数据集成领域的一个重要研究内容,列名与数据值不确定是模式匹配中的一种常见情况,当前较 普遍的方法是基于互信息及欧式空间距离。但该方法没有解决因属性相似度相同或相近而引起的错误匹配问题。针 对该问题,提 出了多重迭代筛选方法,首先确定两个关系模式中能一次性正确匹配的部分属性对,再从中求出最优属 性对,然后给出基于条件互信息的匹配方法,利用最优属性对计算未匹配属性的条件互信息,进一步计算各属性之间 的欧氏距离,最终得到匹配结果,从而解决了错误 匹配问题。实验结果表明所提算法正确、有效。 关键词 不确定性,模式匹配 ,条件互信息 中图法分类号 TP391.7 文献标识码 A DOI 10.I1896/j.issn.1002—137X.2014.08.018 StudyonSchemaM atchingwithUncertainColumnNamesandDataValues HUANGDong-mei FENG Kai ZHAODan-feng GUO Ying-xin (CollegeofInformationTechnology,ShanghaiOceanUniversity,Shanghai201306,China) Abstract Schemamatchingisanimportantresearchinthefieldofdataintegration.Theuncertaintyofcolumnnames anddatavaluesisacommonsituation.Thecommonmethodatpresentdealingwithschemamatchingproblem isbased onmutuaIinformationandEuclideandistance.Butthismethoddoesnotsolvethemistakenmatchingproblem causedby theidentityorthehighsimilarityoftheattributes.Tosolvethisproblem,thispaperproposedmultipleiterativescreen— ingmethod,whichfirstly,intworelationmodels,fixessomeofthecorrectsattributepairsinonetimeandthenselects thebestoptimizedattributepair.Secondly,thispaperlodgedthemethodbasedonconditionalmutualinformation,which utilizesthebestoptimizedattributepairtocalculatetheconditionalmutualinfomr ationofun-matchedattributesand furthercalculatestheEuclideandistancebetweeneachattribute.Finally,thematchingresultwasacquired.Thewrong matchingproblem wassolved.Theexperimentresultindicatesthegivenalgorithm iscorrectandeffective. Keywords Uncertainty,Schemamatching,Conditionalmutua1information

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档