- 4
- 0
- 约 45页
- 2016-03-13 发布于安徽
- 举报
于是 用6台机器,花120小时,我们将4.3亿网页集合划分成了6800万个相似网页子集,其精度和召回率均好于公认较好算法的结果(性能相当) 为什么精度会高? 我们采用了LCS作为判据,直觉上,它就是反映两个文档相似情况的 其他算法(simhash,shingling)本质上都是用“相似的概率”作为判据,是间接的 为什么性能也不错? Myer算法和分治方法,加上在实现中的细节处理 计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一,也是每隔几年就有人发表新的研究成果的。 计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集,得到8.3亿网页(在同样的时间段,在百度的协助下,CNNIC报告的是9.47亿) 搜集能力的体现 基于该网页集合,构造了一个巨大的有向图( 8.3亿节点),对应超过400GB数据量 链接提取能力的体现 在16节点的机群上运行一个结构发现算法,得到了相应的成分数据 变随机访问为多次顺序访问(磁盘) SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程 用邻接表(adjacency list )表达8.3亿节点的图,对应顺序磁盘文件 选几个肯定在SCC中的网页作为种子,例如新浪首页 宽度优先向前搜索(BFS forward)直到收敛,得到节点集合FS 还是从种子开始,宽度优先向后搜索
您可能关注的文档
最近下载
- Soundcraft声艺Signature 22MTK Outline Dimensions file)说明书用户手册.pdf
- 教案课件-典五典范英语5a l6教学参考.pdf VIP
- 商业银行数字化转型:文献综述与研究展望_刘敏楼.pdf VIP
- 施工现场临时用电配电箱标准化图集.pdf VIP
- 施工现场临时用电配电箱(柜)图集.docx VIP
- Electric海菲克功率单元PU00 PU01操作手册.pdf
- 肩周炎诊断及治疗指南.docx VIP
- 电气控制与PLC应用——基于S7-1200_PLC(陈建明)课后习题答案解析.docx VIP
- 腰椎间盘突出症诊疗指南.docx VIP
- BW6101超级电容充电保护.PDF VIP
原创力文档

文档评论(0)