一种多数据源融合实体关系真实度计算算法.docxVIP

一种多数据源融合实体关系真实度计算算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种多数据源融合实体关系真实度计算算法 0 基于时域的大数据分析 随着信息技术的快速发展,社会数据化程度不断提高,数据源的多样性、数据量的巨大化以及数据集相关性信息的获取和分析提供了更有利的条件。多源数据的组合或集成,多源数据的交叉验证和相关性分析,可以获得比单一数据源更准确、更全面的信息。在当前大数据时代,针对多源数据的融合已成为大数据分析处理的关键环节 然而,由于数据管理系统在数据采集过程中的记录不准、人为操作等原因,错误数据、过时数据等数据不一致导致多个数据源对同一实体的联系存在冲突,因此,针对数据不确定信息的处理一直是多数据源融合所面临的主要问题之一,相关的解决方法、技术等学界已有一些研究。如:Yin等人 面对在满足公安应用场景及业务需求中所遇见的多数据源融合过程中同一单值属性的实体对象关联多个对象值问题,即实体对象之间的关联产生多义性问题,本文基于应用场景的系统环境和业务数据特征,提出了一种结合时间属性权值和数据源权重的多数据源DatasourceRank算法,实现对实体对象之间真实度计算。该算法仅对实体对象相关联的数据进行计算,以数据源为基准单位,结合实体关系的时间属性以及各数据源权重,计算实体对象之间的关联度,从而发现当前的实体对象之间真实关联关系。其优点在于,可基于查询信息实时进行计算,并依据关联度高低向用户推荐检索结果,为业务分析工作提供更加精准的信息。 1 同一号号的关联度分析 在本应用场景中,数据平台中的数据源有数百种,数据量多达两万多亿条,且每天还以数十亿条的量在不断增加。但是,数据源中的数据来源复杂,质量良莠不齐,多存在由于原始记录不准、更换号码、人为操作等原因,造成不同数据源中同一个号码可能关联不同的用户的情况,见图1。当出现这种情况时,如何高效计算该号码与每个用户的关联度,找出当前最有可能的使用人就是至关重要的问题。 在本应用场景中,时间属性是重要的因素。比如,某个手机号码在2002~2006年系甲使用,但2007年至今该号码被甲销号后,又由运营商分配给乙使用,则该两组数据均为真实数据,但从信息对于业务工作的价值度来看,后组数据的重要程度明显要高于前者。 因此,本文主要研究的问题可描述为:给定一批数据源集合S={S 2 各用户关联度的计算 基于多数据源的实体关系关联度计算主要涉及实体关联时间属性权值的计算、数据源权重的计算以及所查询号码与各用户关联度的计算,见图2。同时,针对本应用场景,由于各数据源之间具有业务关联性,因此,对数据源权重的计算借鉴了PageRank算法 2.1 移动用户时间权重的计算 如前所述,时间属性是权衡该类业务数据中实体之间关系价值的重要因素之一,因此,以运营商登记的用户号码注册信息为基准,结合同一用户在不同数据源中的号码记录情况,计算这些号码对于该用户的时间权重。 假设T(usr,num)为用户usr与号码num的时间关系权值,当用户usr存在多个号码注册记录信息时,用户usr与各使用号码的时间权值可表示为T(usr,num)={T(usr,num θ(num 2.2 计算数据源的权重 假设D=(D 其中,m 给定一个D的初始值D 2.3 实体关系关联度生成 由公式(2)计算所查询号码num在数据源i下与用户usr的关联概率P 式中,G表示所查询号码num在数据源i下与用户usr关联的总次数;V表示所查询号码num在数据源i下存在的所有关联总次数。 然后,结合之前所计算得到的时间权重T(usr,num)和数据源权重D 最后,依据多个数据源的信息价值,由公式(4)计算出号码num与用户usr的关联度P(num→usr)值。 基于所查询号码与用户之间关联度的计算结果进行排序,按照关联度值的排名顺序向用户推荐结果,其中,关联度值最高的关联关系即为该号码当前最有可能的使用人。 3 实体关系时间权重的确定 本文使用了1 500条公开电话号码数据作为查询数据,分别基于本文DatasourceRank算法和PageRank算法进行关联度值计算并排序,提取其结果进行分析对比验证,其结果可见表1。 本文提出的DatasourceRank关联度计算算法基于实际应用场景中的数据特性,考虑了实体关系的时间价值、不同数据源权重等多种影响因素,其准确率明显更高,同时,由于其以数据源为基准单位,仅对实体对象相关联的数据进行计算,所需要的时间开销也有所降低。 以其中一个号码“138*****883”为查询对象进行详细分析,从业务大数据平台中检索相关数据,发现该号码在4个数据源中存在多条记录数据,该号码与多个用户之间存在交叉关联性,见图3,图中椭圆形表示手机号码,方形表示数据源,而圆形表示使用过该号码的人。 根据本文的DatasourceRank方法进行计算。首先,进行实体关系时间权重的计算,主要伪代码如

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档