距离检测文章.docVIP

  • 16
  • 0
  • 约2.31万字
  • 约 14页
  • 2018-09-20 发布于江苏
  • 举报
附 录1 对聚类点集近似最邻近搜索的分析 Songrit Maneewongvatana 和 David M.Mount 摘要 最邻近搜索是最基本的计算问题。给定D维空间中的一个点集,它包含n个数据点,最邻近搜索要解决的问题是用一个数据结构对这些点进行处理,以便给出一个查询点时,我们可以高效地在数据集中找到与该点距离最近的点。因为数据集可能很大,所以我们更关注数据结构所占的存储空间,希望将其控制在O(dn)。 一种较为流行的用于最邻近搜索的数据结构是kd树及其变体,这项技术的基本思想是将分级的分解空间放进一个盒子中。在建立这种数据结构时的一个重要的问题是分割算法的选择,分割算法决定了分割维和用于空间分割的超平面。分割算法的选择在很大程度上决定了数据结构的效率,当数据点和查询点都聚集在低维子空间时,这点体现的尤为明显。这是因为较高的聚集性会让子划分生成长宽比极高的盒子。 我们将两种可选的分割策略与众所周知的优化kd树策略进行了对比。第一种叫做滑动中点分割策略。它试图寻求一种平衡,以使得子划分产生的盒子有一个长宽比的上限,且每个盒子中都含有数据点。第二种被称为最小不确定性分割策略,它是一种基于询问的搜索方式。这种策略中,我们除了要给出数据点集外,还要给出一个训练查询集,用于预处理。策略中使用了一种简单的贪心算法,以期选择的分割

文档评论(0)

1亿VIP精品文档

相关文档