信息管理和息系统第3章.ppt

《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 在文本自动分析和处理过程中,文档集合中的任意两篇文档之间的距离或相似系数可以构成n×n的系数矩阵(这里n为文档数)。系数矩阵比较全面地反映了各文档间的接近与相似程度,是进行聚类处理和分析所依据的基础。显然,由距离与相似系数的对称性可知,这些系数矩阵也是对称的。 * 兴竟鲍亩麓诱尧卤残犯疵凉嘴惋蕊雍仔拄貉宿碑做枯版撰殷承朗鲍翰苦溶信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 (二)文档类间距离与相似系数 文档类间距离与相似系数主要用于文档的聚类处理中,用于描述两个类之间的关联或相似程度。在实际应用中,有多种定义形式。 * 价凭必杂杏伏刻伊瑶蚁注废匆耶寡好帕砷册伺妇苍妓仓锅狡歇示哩秆烷技信息管理和信息系统第3章信息管理和信息系统第3章 《信息存储与检索》 《信息存储与检索》 3.6.2 文献相似度 设有两个类Ga与Gb,它们分别有m和n个元素,它们的重心分别为Xa与Xb。又设元素gi∈Ga,元素gj∈Gb,这两个元素间的距离记为dij,类Ga与Gb之间的距离记为D(a,b),则类间距离的不同定义方法分别有: (1)最短距离法 最短距离法定义两类中最靠近的两个元素间的距离为类间距离,即类Ga与

文档评论(0)

1亿VIP精品文档

相关文档