- 3
- 0
- 约3.5千字
- 约 6页
- 2021-08-11 发布于广东
- 举报
一种基于集合论和图论的餐饮高维非数值型数据聚类算法
摘要:为了提高餐饮推荐系统的准确率,提出一种基于集合论和图论的餐饮高维非数值型数据聚类算法.首先将菜品数据进行预处理,找出需要的特征,删除不必要的特征,再将这些特征以集合的形式输入到系统中,使用改进的杰卡德相似系数对集合进行相似度计算,得到以集合表示方式的菜品数据间的相似度,接着将所有的数据转换为无向图,最后利用图形聚类算法进行聚类分析.实验结果表明:所提出算法的聚类过程不受噪声影响,具有很好的实用价值.
餐饮推荐系统需将菜单上的所有菜品进行分类,传统数据分类方法将菜品的每一个关键字作为一个特征,需要使用数量相当庞大的特征来表示,很容易造成维度灾难,而且这种自然语言无法进行数值化处理,也难以实现高维度非数值化数据的聚类本文提出一种基于集合论与图论的高维度非数值型数据的聚类方法.先将数据进行预处理,根据菜品之间的关系建立关联图,找出最适合的数据特征并删除不必要的特征,再利用集合论的原理计算数据间的相似度,以图的形式呈现,最后利用图形聚类算法进行聚类分析.实验结果表明:算法的聚类过程不受噪声影响,具有很好的实用价值.1 基于集合论与图论的高维度非数值数据的聚类算法目前,聚类算法必须先将数据的特征数值化才能进行距离计算为解决上述问题,提出一种基于集合论和图论的高维度非数值型数据聚类算法,首先将菜品数据进行预处理,依照分析目的找出需要的特征并删除不必要的特征,再将这些特征以集合的形式输入到系统中,系统中的每一笔数据都为一个集合,接着将所有的数据以图形中的顶点表示,若2个顶点的相似度大于预设值,则2个顶点有一个无向边相邻,该图1.1 数据预处理数据预处理主要为收集数据、数据整合、数据清理、数据转换和分析数据.若考虑有1.2 建立图形由于菜品较多,处理后的特征的数量相当庞大,使用传统的相似度计算方法效果差,如新增一数据在数据预处理后就可以建立图形,图形中每一个顶点表示一笔数据,假如2个顶点间有一条边相邻,则表示2个顶点间的相似度大于系统的预设值,当一个顶点无任何边相邻时称为噪声点.因此,在建立图形前必须先计算数据间的相似度,以解决特征数量庞大及特征难以数值化的问题两集合相似度的计算方法有欧几里得距离、Ochiai系数和杰卡德相似系数等. (1)式中:当. (2)改进的杰卡德相似系数在有了所有顶点间的相似度,接着还需在两点间建立一条边的最低标准值,以所建立的边为无向边,且所有边的权重值都相等.图形建立完成后,该图形即为所要分析的数据间的关联图.1.3 图形聚类算法关联图分析的算法很多,本文采用广度优先搜索算法寻找图的连通分量,使用Dijkstra算法计算起点的最短路径和Floyd-Warshall算法计算全局最短路径,最后利用图形聚类算法对图形进行聚类分析.1.3.1 图形数据结构图形数据结构分为邻接矩阵和邻接链表2种1.3.2 图的遍历图的遍历是从图的某一顶点出发,对图中的所有顶点访问一次,且仅访问一次.常用的方法有深度优先遍历和广度优先遍历:深度优先遍历是沿着树的深度遍历图的顶点,尽可能地往深处搜寻图,当顶点使用广度优先遍历来进行图的遍历,广度优先遍历的具体步骤如下:步骤1:把起点存入队列中.步骤2:如队列不为空,则重复下列步骤,即从队列中取出队列头的点,找出此点的各邻接点,如没遍历,则进行标记,全部存入队列中.步骤3:返回步骤2,直到队列空为止.1.3.3 起点的最短路径计算起点的最短路径计算使用Dijkstra算法,Dijkstra算法的流程图如图3所示.设Dijkstra算法是利用图形的边向外拓展为基础进行计算,如有一条从点和1.3.4 全局最短路径的计算全局最短路径的计算采用Floyd-Warshall算法.Floyd-Warshall算法采用动态规划方案来解决在一个图上每对顶点间的最短路径问题1)若最短路径经过点2)若最短路径不经过点即定义图 当算法的具体步骤如下:步骤1:初始化,定义步骤2:根据式(4)计算=min(步骤3:当步骤4:重复以上步骤,直到寻找到终点为止,并结束.1.3.5 图形聚类算法图形聚类算法是一种基于图论的图形聚类分析方法图形聚类算法首先利用广度优先搜寻方法找出图形的连通分量,如果图形中任意2个顶点之间都拥有一条路径,则称为连通图,反之称为非连通图,非连通图是由2个或2个以上连通图所组成,而这些连通图则为非连通图的连通分量,一张图. (5)接着以每一个连通分量为单位分别计算
您可能关注的文档
- 反戏剧精神的内涵及表现形式.docx
- 促进消防队伍灭火救援实战能力提升措施的探讨.docx
- 产出导向法在大学英语视听说课程教学中的应用.docx
- 东北师范大学女足2017~2019年大学生锦标赛情景训练研究.docx
- 上海黄浦开展错时夜查 整治火灾隐患.docx
- 上海交通大学附属胸科医院方文涛教授团队发布国际首个胸腺肿瘤术后复发预测模型.docx
- 上海市地方标准《感染预防技术要求 第1部分个人防护用品使用规范》解读.docx
- 上海市海浪预报与警报发布标准研究.docx
- 上海市普陀区人民医院安防系统升级改造的经验与教训.docx
- 上海市中学校长和其他参与国家或地区高等院校的职前培养体系研究.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- 北师大版三年级下册数学全册教学设计(配2026年春改版教材).docx
- (2026年)跌倒坠床护理综合指南PPT课件.pptx VIP
- 工程设计应急响应方案(3篇).docx VIP
- 征信简版电子版PDF个人信用报告最新版2024年可编辑带水印模板.pdf VIP
- ntvf调试资料解读.doc VIP
- 电影《色.戒》的叙事伦理.doc VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 佳能EOS1500D基本使用说明书说明书.pdf VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 渣打银行(香港)有限公司.PDF VIP
原创力文档

文档评论(0)