量网页集合的分析与处理：机遇、挑战与实例 - 李晓明.pptVIP

下载本文档

2
0
约8.31千字
约 43页
2017-01-30 发布于北京
举报

量网页集合的分析与处理：机遇、挑战与实例 - 李晓明.ppt

于是用6台机器，花120小时，我们将4.3亿网页集合划分成了6800万个相似网页子集，其精度和召回率均好于公认较好算法的结果（性能相当）为什么精度会高？我们采用了LCS作为判据，直觉上，它就是反映两个文档相似情况的其他算法（simhash,shingling）本质上都是用“相似的概率”作为判据，是间接的为什么性能也不错？ Myer算法和分治方法，加上在实现中的细节处理计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一，也是每隔几年就有人发表新的研究成果的。计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集，得到8.3亿网页（在同样的时间段，在百度的协助下，CNNIC报告的是9.47亿）搜集能力的体现基于该网页集合，构造了一个巨大的有向图（ 8.3亿节点），对应超过400GB数据量链接提取能力的体现在16节点的机群上运行一个结构发现算法，得到了相应的成分数据变随机访问为多次顺序访问（磁盘） SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程用邻接表(adjacency list )表达8.3亿节点的图，对应顺序磁盘文件选几个肯定在SCC中的网页作为种子，例如新浪首页宽度优先向前搜索（BFS forward）直到收敛，得到节点集合FS 还是从种子开始，宽度优先向后搜索

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

量网页集合的分析与处理：机遇、挑战与实例 - 李晓明.pptVIP