2012年信息科学与技术学院算法与数据结构专业技能大赛试题new.docxVIP

  • 3
  • 0
  • 约1.04万字
  • 约 14页
  • 2021-11-11 发布于天津
  • 举报

2012年信息科学与技术学院算法与数据结构专业技能大赛试题new.docx

2012年信息科学与技术学院 算法与数据结构专业技能大赛试题 说明:1、不限定开发语言 2、最多不超过5人/题3、题目理解有问题找唐仕喜老师 4、比赛时间为1个 月,到2013年1月1日前截止提交5、10(2)(3)班所有学生都要参加比赛并提交作品,其它班级可参加 6、 学院通过答辩评选择岀一、二、三等奖若干名,并发放证书和奖品 【试题一】对给定文档,依据下面的思想设计聚类算法,并实现,输出聚类结果。 无向加权图Gn V, E,W,V={d1,d2,…,dn};其表示形式为一对称矩阵: [wij]n x n,其中W={w1, w2,…,wm}是边权重代表两个文本间相似度。 计算文档的词 频以及文档间的相似度,将文档粗化的聚成 无关或是相关度极小 的c个文档子类。首先除去 在所有文档中出现的 高频词;然后提取剩下词汇的短语存入词根表中。 收集这些短语形成一 个索引短语集T。短语t在文档di中权重为: tfij 定义为短语t在文档中di出现的频率;dft定义为含有短语t的文档数量;L定 义为文档di中包含的索引短语的数量; N定义为文档的数量。p_term_documen (tt , di ) 的值代表着短语t在文档di中的重要性,取值范围是[0,1]。计算出短语的权重,可以将 短语表示成向量:di= (wi1,wi2,…,wis ),其中0 wij 1,s代表索引短语表中词的数 量

文档评论(0)

1亿VIP精品文档

相关文档