一种基于集合论和图论的餐饮高维非数值型数据聚类算法.docxVIP

  • 3
  • 0
  • 约3.5千字
  • 约 6页
  • 2021-08-11 发布于广东
  • 举报

一种基于集合论和图论的餐饮高维非数值型数据聚类算法.docx

一种基于集合论和图论的餐饮高维非数值型数据聚类算法 摘要:为了提高餐饮推荐系统的准确率,提出一种基于集合论和图论的餐饮高维非数值型数据聚类算法.首先将菜品数据进行预处理,找出需要的特征,删除不必要的特征,再将这些特征以集合的形式输入到系统中,使用改进的杰卡德相似系数对集合进行相似度计算,得到以集合表示方式的菜品数据间的相似度,接着将所有的数据转换为无向图,最后利用图形聚类算法进行聚类分析.实验结果表明:所提出算法的聚类过程不受噪声影响,具有很好的实用价值. 餐饮推荐系统需将菜单上的所有菜品进行分类,传统数据分类方法将菜品的每一个关键字作为一个特征,需要使用数量相当庞大的特征来表示,很容易造成维度灾难,而且这种自然语言无法进行数值化处理,也难以实现高维度非数值化数据的聚类 本文提出一种基于集合论与图论的高维度非数值型数据的聚类方法.先将数据进行预处理,根据菜品之间的关系建立关联图,找出最适合的数据特征并删除不必要的特征,再利用集合论的原理计算数据间的相似度,以图的形式呈现,最后利用图形聚类算法进行聚类分析.实验结果表明:算法的聚类过程不受噪声影响,具有很好的实用价值. 1 基于集合论与图论的高维度非数值数据的聚类算法 目前,聚类算法必须先将数据的特征数值化才能进行距离计算 为解决上述问题,提出一种基于集合论和图论的高维度非数值型数据聚类算法,首先将菜品数据进行预处理,依照分析目的找出需要的特征并删除不必要的特征,再将这些特征以集合的形式输入到系统中,系统中的每一笔数据都为一个集合,接着将所有的数据以图形中的顶点表示,若2个顶点的相似度大于预设值,则2个顶点有一个无向边相邻,该图 1.1 数据预处理 数据预处理主要为收集数据、数据整合、数据清理、数据转换和分析数据.若考虑有 1.2 建立图形 由于菜品较多,处理后的特征的数量相当庞大,使用传统的相似度计算方法效果差,如新增一数据 在数据预处理后就可以建立图形,图形中每一个顶点表示一笔数据,假如2个顶点间有一条边相邻,则表示2个顶点间的相似度大于系统的预设值,当一个顶点无任何边相邻时称为噪声点.因此,在建立图形前必须先计算数据间的相似度,以解决特征数量庞大及特征难以数值化的问题 两集合相似度的计算方法有欧几里得距离、Ochiai系数和杰卡德相似系数等 . (1) 式中: 当 . (2) 改进的杰卡德相似系数在 有了所有顶点间的相似度,接着还需在两点间建立一条边的最低标准值,以 所建立的边为无向边,且所有边的权重值都相等.图形建立完成后,该图形即为所要分析的数据间的关联图. 1.3 图形聚类算法 关联图分析的算法很多,本文采用广度优先搜索算法寻找图的连通分量,使用Dijkstra算法计算起点的最短路径和Floyd-Warshall算法计算全局最短路径,最后利用图形聚类算法对图形进行聚类分析. 1.3.1 图形数据结构 图形数据结构分为邻接矩阵和邻接链表2种 1.3.2 图的遍历 图的遍历是从图的某一顶点出发,对图中的所有顶点访问一次,且仅访问一次.常用的方法有深度优先遍历和广度优先遍历:深度优先遍历是沿着树的深度遍历图的顶点,尽可能地往深处搜寻图,当顶点 使用广度优先遍历来进行图的遍历,广度优先遍历的具体步骤如下: 步骤1:把起点存入队列中. 步骤2:如队列不为空,则重复下列步骤,即从队列中取出队列头的点,找出此点的各邻接点,如没遍历,则进行标记,全部存入队列中. 步骤3:返回步骤2,直到队列空为止. 1.3.3 起点的最短路径计算 起点的最短路径计算使用Dijkstra算法,Dijkstra算法的流程图如图3所示.设 Dijkstra算法是利用图形的边向外拓展为基础进行计算,如有一条从点 和 1.3.4 全局最短路径的计算 全局最短路径的计算采用Floyd-Warshall算法.Floyd-Warshall算法采用动态规划方案来解决在一个图上每对顶点间的最短路径问题 1)若最短路径经过点 2)若最短路径不经过点 即 定义图 当 算法的具体步骤如下: 步骤1:初始化,定义 步骤2:根据式(4)计算 =min( 步骤3:当 步骤4:重复以上步骤,直到寻找到终点为止,并结束. 1.3.5 图形聚类算法 图形聚类算法是一种基于图论的图形聚类分析方法 图形聚类算法首先利用广度优先搜寻方法找出图形的连通分量,如果图形中任意2个顶点之间都拥有一条路径,则称为连通图,反之称为非连通图,非连通图是由2个或2个以上连通图所组成,而这些连通图则为非连通图的连通分量,一张图 . (5) 接着以每一个连通分量为单位分别计算

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档