2016海量集合的分析与处理机遇挑战与实例李晓明.pptVIP

  • 3
  • 0
  • 约 43页
  • 2016-12-19 发布于北京
  • 举报

2016海量集合的分析与处理机遇挑战与实例李晓明.ppt

于是 用6台机器,花120小时,我们将4.3亿网页集合划分成了6800万个相似网页子集,其精度和召回率均好于公认较好算法的结果(性能相当) 为什么精度会高? 我们采用了LCS作为判据,直觉上,它就是反映两个文档相似情况的 其他算法(simhash,shingling)本质上都是用“相似的概率”作为判据,是间接的 为什么性能也不错? Myer算法和分治方法,加上在实现中的细节处理 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. 计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一,也是每隔几年就有人发表新的研究成果的。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile . Copyright 2004-2011 Aspose Pty Ltd. 计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集,得到8.3亿网页(在同样的时间段,在百度的协助下,CNNIC报告的是9.47亿) 搜集能力的体现 基于该网页集合,构造了一个巨大的有向图( 8.3亿节点),对应超过400GB数据量 链接提取能力的体现

文档评论(0)

1亿VIP精品文档

相关文档