大数据实体识别研究与仿真.docVIP

  • 16
  • 0
  • 约1.45万字
  • 约 20页
  • 2021-10-24 发布于北京
  • 举报
PAGE PAGE 20 大数据实体识别研究与仿真 摘要:随着数据的爆炸性增长,劣质数据广泛存在于信息社会的各个领域,引发了许多问题。有关数据可用性研究在国内外已经展开。近年来,有关数据实体同一性的研究是数据处理领域的热点研究问题之一。其中,如何从多源异构、多样化、有缺失的个人信息数据中辨别出同一个人信息实体是一个巨大的挑战。本文通过分析Febrl[19]数据集的数据特征,构造键-值对,建立包含邻近数据的哈希表;而后基于Hung-sik Kim等人提出的基于局部敏感迭代哈希的记录链接算法(HARRA)进行相似度量,并改进输出方式,使结果可视化,最后完成个人信息实体识别,输出映射表。实验结果证明了采用HARRA算法进行个人信息实体识别的可行性。 关键词:大数据;实体同一性;局部敏感哈希;HARRA;个人信息 Research and Simulation on the Entity Identity of Big Data College of Electronic and Information Engineering,NUIST,Nanjing 210044,China Abstract: With the tremendous increasement of data volume, dirty data has been widely viewed in various fields of information society and caused many problems .Fortunately, there have been many research efforts on the data usability at domestic and abroad. Recently, the research on entity identity of big data is one of the hot issues in the field of data processing. Among the research, how to identify the same commodity entities from the multi-source heterogeneous, various and missing personal information data for better entity identity raises a very valuable and challenging topic. Seen in this light, we analyze the data characteristics of Febrl data set and construct the key/value pairs to create the hash tables containing the neighbor data. And we measure the similarity of personal information via the Iterative Locality-Sensitive Hashing based (I-LSH-based) RL algorithms. Finally we output the mapping table. Experimental results show that the HARRA algorithm is feasible and effective in the identification of personal information entities. Key words:big data; entity identity; Locality-Sensitive Hashing; HARRA; personal information 1 引言 1.1 研究目的及意义 随着计算机技术的飞速发展以及互联网、社交网络和云计算的不断普及,因特网已经成为人们生活中不可或缺的部分,伴随而来的是海量的数据以及复杂的数据形式。这些数据结构复杂、形式多样、不齐、关联形态不断变化,给数据处理带来了极大的挑战。同时,由于数据库维护成本高,更新的时效性差,数据缺失、数据错误和数据冗余的现象普遍存在。因此提高数据质量也就成为了当今社会的重要现实问题。 以互联网环境下个人信息的录入为例,同一个人的档案信息在不同网络平台(不同数据库)中往往以各种各样的形式存在着,使得管理者在有关人员信息的搜索与整合工作中耗费了大量精力。为了将来自不同数据库的人员信息进行关联,首要任务是完成个人档案的匹配,即从数据集中找出同一实体的不同表述,将这一过程称为记录链接(rec

文档评论(0)

1亿VIP精品文档

相关文档