海量网页集合的分析与处理：机遇、挑战与实例-李晓明.pptVIP

下载本文档

0
0
约 43页
2017-06-28 发布于上海
举报
版权申诉

海量网页集合的分析与处理：机遇、挑战与实例-李晓明.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

于是用6台机器，花120小时，我们将4.3亿网页集合划分成了6800万个相似网页子集，其精度和召回率均好于公认较好算法的结果（性能相当）为什么精度会高？我们采用了LCS作为判据，直觉上，它就是反映两个文档相似情况的其他算法（simhash,shingling）本质上都是用“相似的概率”作为判据，是间接的为什么性能也不错？ Myer算法和分治方法，加上在实现中的细节处理计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一，也是每隔几年就有人发表新的研究成果的。计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集，得到8.3亿网页（在同样的时间段，在百度的协助下，CNNIC报告的是9.47亿）搜集能力的体现基于该网页集合，构造了一个巨大的有向图（ 8.3亿节点），对应超过400GB数据量链接提取能力的体现在16节点的机群上运行一个结构发现算法，得到了相应的成分数据变随机访问为多次顺序访问（磁盘） SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程用邻接表(adjacency list )表达8.3亿节点的图，对应顺序磁盘文件选几个肯定在SCC中的网页作为种子，例如新浪首页宽度优先向前搜索（BFS forward）直到收敛，得到节点集合FS 还是从种子开始，宽度优先向后搜索（BFS backward）直到收敛，得到节点集合BS FS 和 BS 的交集就是 SCC FS – SCC is OUT；BS – SCC is IN 从FS and BS的并集开始做无向BFS，得WCC Total – WCC is the DISKs WCC – SCC is the TENDRILs 天网收藏+网页消重（聚类）?历史信息搜索想象我们到了2050年问题一：关于三峡大坝，自酝酿到建成，历经数年，一定有各种观点和争论，我想研究一下其中的沿革。哪里找得到有关材料？国图，翻旧报纸，查有关文献资料；（需要一个月吧）。问题二：“超女现象”曾经在中国风靡一时，据说有个叫李宇春的最后脱颖而出，当时关于她有哪些报道呢？基于天网收藏的事件报道历史搜索引擎索引的数据输出排序用户普通搜索引擎各种网页在爬取时得到的网页清单按相关性普通百姓基于天网收藏的搜索引擎文章型网页历史网页清单按照时间社会科学研究人员与普通搜索引擎的比较事件报道历史搜索引擎这背后是2001年以来，中国网上曾经出现过的4.3亿篇文章型网页，分成了6300万个转载组（相当于这么多篇不相同的文章。目前Wikipedia有多少文章—300万）事件报道历史这样一个搜索引擎的建立过程 Step 1: 取天网大全中25亿网页 Step 2: 从中挑出“文章型网页”，大约4.3亿 Step 3: 将这4.3亿篇文章型网页划分成了6800万转载网页集 Step 4: 在每一个集合中确定最早的发表时间 Step 5: 建立索引，提供查询服务重要事件信息的综合展示应用天网荟萃—2008北京奥运会（WebDigest – Beijing Olympics）关注100个重要的网站（不同的省份）每天的信息（搜集并留下来）多层面的展示时间上的积累实体关系的分析信息强度的变化（实体及其关系的提取与分析能力的体现） WebDigest – Beijing Olympics Information about an athlete 关于一个运动员的舆论的变化 August 8 August 10 August 14 August 18 August 22 August 26 天网荟萃 – 2008北京奥运会的运行 4pm – 12pm, 网页爬取 ? 1~2百万 12pm – 2am, 过滤出奥运网页 2am – 8am, 网页中的噪音消除 8am – 10am, 实体提取 10am – 12am, 实体关系发现 12am – 2pm, 建索引，数据融合 2pm: 提供服务（显然，这样的服务有趣，但信息不一定可靠）结束语（summary）基于实际数据的评测和验证，是网络信息处理方法和技术研究的基本方法（论）数据的代表性是一个基本挑战网络难以实现科学抽样?尽量接近全体（不要与全体相比太少）?海量网络信息处理（效率很重要）计算机技术与产品的发展带来了高价效（cost-effectiveness）处理海量网络信息的基本能力对于特定