- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
于是 用6台机器,花120小时,我们将4.3亿网页集合划分成了6800万个相似网页子集,其精度和召回率均好于公认较好算法的结果(性能相当) 为什么精度会高? 我们采用了LCS作为判据,直觉上,它就是反映两个文档相似情况的 其他算法(simhash,shingling)本质上都是用“相似的概率”作为判据,是间接的 为什么性能也不错? Myer算法和分治方法,加上在实现中的细节处理 计算中国万维网的“形状” 网络信息“形状”是它的基本特点之一,也是每隔几年就有人发表新的研究成果的。 计算Web结构的一个例子 2006年1-2月间执行了一次比较彻底的搜集,得到8.3亿网页(在同样的时间段,在百度的协助下,CNNIC报告的是9.47亿) 搜集能力的体现 基于该网页集合,构造了一个巨大的有向图( 8.3亿节点),对应超过400GB数据量 链接提取能力的体现 在16节点的机群上运行一个结构发现算法,得到了相应的成分数据 变随机访问为多次顺序访问(磁盘) SCC 44.10% IN 25.50% OUT 14.60% TENDRILS 15.80% 算法流程 用邻接表(adjacency list )表达8.3亿节点的图,对应顺序磁盘文件 选几个肯定在SCC中的网页作为种子,例如新浪首页 宽度优先向前搜索(BFS forward)直到收敛,得到节点集合FS 还是从种子开始,宽度优先向后搜索(BFS backward)直到收敛,得到节点集合BS FS 和 BS 的交集就是 SCC FS – SCC is OUT;BS – SCC is IN 从FS and BS的并集开始做无向BFS,得WCC Total – WCC is the DISKs WCC – SCC is the TENDRILs 天网收藏+网页消重(聚类)?历史信息搜索 想象我们到了2050年 问题一:关于三峡大坝,自酝酿到建成,历经数年,一定有各种观点和争论,我想研究一下其中的沿革。哪里找得到有关材料? 国图,翻旧报纸,查有关文献资料;(需要一个月吧)。 问题二:“超女现象”曾经在中国风靡一时,据说有个叫李宇春的最后脱颖而出,当时关于她有哪些报道呢? 基于天网收藏的事件报道历史搜索引擎 索引的数据 输出 排序 用户 普通搜索 引擎 各种网页 在爬取时得到的 网页清单 按相关性 普通百姓 基于天网 收藏的 搜索引擎 文章型网页 历史网页清单 按照时间 社会科学 研究人员 与普通搜索引擎的比较 事件报道历史搜索引擎 这背后是2001年以来,中国网上曾经出现过的4.3亿篇文章型网页,分成了6300万个转载组(相当于这么多篇不相同的文章。目前Wikipedia有多少文章—300万) 事件报道历史 这样一个搜索引擎的建立过程 Step 1: 取天网大全中25亿网页 Step 2: 从中挑出“文章型网页”,大约4.3亿 Step 3: 将这4.3亿篇文章型网页划分成了6800万转载网页集 Step 4: 在每一个集合中确定最早的发表时间 Step 5: 建立索引,提供查询服务 重要事件信息的综合展示应用 天网荟萃—2008北京奥运会(WebDigest – Beijing Olympics) 关注100个重要的网站(不同的省份) 每天的信息(搜集并留下来) 多层面的展示 时间上的积累 实体关系的分析 信息强度的变化 (实体及其关系的提取与分析能力的体现) WebDigest – Beijing Olympics Information about an athlete 关于一个运动员的舆论的变化 August 8 August 10 August 14 August 18 August 22 August 26 天网荟萃 – 2008北京奥运会的运行 4pm – 12pm, 网页爬取 ? 1~2百万 12pm – 2am, 过滤出奥运网页 2am – 8am, 网页中的噪音消除 8am – 10am, 实体提取 10am – 12am, 实体关系发现 12am – 2pm, 建索引,数据融合 2pm: 提供服务 (显然,这样的服务有趣,但信息不一定可靠) 结束语(summary) 基于实际数据的评测和验证,是网络信息处理方法和技术研究的基本方法(论) 数据的代表性是一个基本挑战 网络难以实现科学抽样?尽量接近全体(不要与全体相比太少)?海量网络信息处理(效率很重要) 计算机技术与产品的发展带来了高价效(cost-effectiveness)处理海量网络信息的基本能力 对于特定
您可能关注的文档
最近下载
- 2024年湖南汽车工程职业学院单招职业技能测试题库及答案(历年真题).docx VIP
- 泌尿外科常见术后护理.ppt
- 泥塑教学课件.ppt
- AQ 1083-2011 煤矿建设安全规范(高清-安全-行业标准).pdf
- 石油 - NB-T 10009-2014 煤层气井排采技术规范.pdf VIP
- mes系统简介演示.pptx VIP
- Unit 3 Mary's diary(教学设计)-2023-2024学年Join in外研剑桥英语六年级下册.docx
- 2025年湖南铁道职业技术学院单招职业适应性测试题库审定版.docx VIP
- 江苏省公安机关人民警察基本级执法资格等级考试试卷(含答案).pdf VIP
- 北京大学教师行为规范.pdf
文档评论(0)