量网页集合的分析与处理:机遇、挑战与实例 - 李晓明.pptVIP

  • 2
  • 0
  • 约8.31千字
  • 约 43页
  • 2017-01-30 发布于北京
  • 举报

量网页集合的分析与处理:机遇、挑战与实例 - 李晓明.ppt

于是 用6台机器,花120小时,我们将4.3亿网页集合划分成了6800万个相似网页子集,其精度和召回率均好于公认较好算法的结果(性能相当) 为什么精度会高? 我们采用了LCS作为判据,直觉上,它就是反映两个文档相似情况的 其他算法(simhash,shingling)本质上都是用“相似的概率”作为判据,是间接的 为什么性能也不错? Myer算法和分治方法,加上在实现中的细节处理 计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一,也是每隔几年就有人发表新的研究成果的。 计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集,得到8.3亿网页(在同样的时间段,在百度的协助下,CNNIC报告的是9.47亿) 搜集能力的体现 基于该网页集合,构造了一个巨大的有向图( 8.3亿节点),对应超过400GB数据量 链接提取能力的体现 在16节点的机群上运行一个结构发现算法,得到了相应的成分数据 变随机访问为多次顺序访问(磁盘) SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程 用邻接表(adjacency list )表达8.3亿节点的图,对应顺序磁盘文件 选几个肯定在SCC中的网页作为种子,例如新浪首页 宽度优先向前搜索(BFS forward)直到收敛,得到节点集合FS 还是从种子开始,宽度优先向后搜索

文档评论(0)

1亿VIP精品文档

相关文档