基于距离度量实体识别算法.docVIP

  • 22
  • 0
  • 约4.79千字
  • 约 8页
  • 2018-08-30 发布于福建
  • 举报
基于距离度量实体识别算法

基于距离度量实体识别算法   摘 要:传统的实体识别中,往往是利用字符串相似性函数来计算元组对在每个属性值上的相似度从而来判断它们总的相似性(例如,元组对的相似性等于每个属性值上的相似度的加权求和)。然而这一类相似性测度不能够反映属性值内部不同的词在元组对相似性计算中的不同重要性。由于不能区分哪些词对元组对匹配更重要,就导致仍然存在某些匹配的元组相似性不高,而不匹配的元组相似性高的情况,故很难将匹配元组对和不匹配元组对有效区分开。为了解决这个问题,我们提出了以词为特征的距离度量函数,设计了基于词特征的距离度量学习算法,和基于距离度量的实体识别算法。扩展性实验对我们所提出的算法的有效性进行了验证。   关键词:实体识别;相似性测度;距离度量;度量学习   中图分类号:TP704.25   Abstract: Traditional entity resolution methods always use string-based similarity functions to compute the similarities of attribute-values between records and then compute the similarity between records based on these similarities, i.e., the sim

文档评论(0)

1亿VIP精品文档

相关文档