- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于链接聚类的shark-search算法 - 2006年度全国搜索引 …
基于链接聚类的 Shark-Search算法 北京大学计算语言学研究所 苏祺 项锟 孙斌 2006-7-22 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 引言 网页爬取是搜索引擎工作的重要步骤 网页的静态搜集 -时新性较差,不能保证链接的有效性 -不具有可定制性 网页的主题爬取 -指定主题,即时定向,对待访问链接进行评价 -较好的时新性,大量节约硬件和网络资源 要点:与主题最相关的链接优先爬取 根据网页的半结构化特征对其中的链接进行聚类 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * Fish-Search算法 Web爬取-鱼群的觅食过程 动态建立一个优先爬取的URL列表 鱼-URL 食物-相关网页 找到食物:鱼繁殖αω后代,保持生命力D继续觅食(沿该方向继续跟踪链接),潜在相关得分1 没有找到食物:繁殖ω后代,生命力-1,潜在相关得分0.5 * Shark-Search算法 在Fish-Search算法基础上的改进 网页与主题的相关性 -相关/不相关 0,1 -VSM模糊评分 [0,1] 潜在相关得分 -父结点相关性的继承 -链接文本 -链接上下文 * Shark-Search算法 上下文范围 内容 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * htmlheadtitlehello/title/head body divtable trtda href=””1/a/td/tr /table/div divtable tr tda href=””2/a/td tdtable trtda href=””3/td/tr trtda href=””3/td/tr trtda href=””3/td/tr /table/td /tr /table/div /body /html Link 9 1-4-5-6-7-8-9 Link 14 1-4-10-11-12-13-14 Link 19 1-4-10-11-12-15-16-17-18-19 Link 22 1-4-10-11-12-15-16-20-21-22 Link 25 1-4-10-11-12-15-16-23-24-25 步骤3 14 25 22 19 24 21 18 23 20 17 16 9 8 6 7 15 13 12 5 1 2 4 3 10 11 a a a a td td td tr tr tr table a td table tr td td tr div html head body title div table 步骤2 步骤1 链接聚类算法 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 用类别评分策略替换原有的链接上下文评分策略 基于链接聚类的Shark算法 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 实验结果 * 目录 引言 Fish-Search算法与Shark-Search算法 链接聚类算法 基于链接聚类的Shark-Search算法 实验与评估 结论 * 结论 本文提出基于网页中的半结构化特征对网页中的链接进行聚类,并以此对Shark-Search算法进行改进。通过实验证明了这种方法的有效性。 谢谢! * * * * *
您可能关注的文档
- 装载机培训资料【课件】.ppt
- 中港第一航务工程局第二工程公司“三标一体”管理体系培训讲义.ppt.ppt
- 最新庆典年会等演出节目推荐节日庆典.ppt
- 智慧让城市腾飞_智慧城市解决方案2013_中科院深圳先进.ppt
- 中国一冶集团有限公司机电安装工程公司电装分公司“电气之光”QC小组.ppt
- 长安福特蒙迪欧电控发动机培训--CD132发动机的拆装.ppt
- 轧钢厂棒材轧制工艺及装备.ppt
- 中建二局南宁万达广场创AAA工地图片集(下).ppt
- 园林景观常用铺装材料及施工工艺PPT资料.ppt
- 中国高安食品博览园开工奠基典礼活动执行方案-正九传媒.ppt
- 2026年及未来5年工业用防水布项目市场数据调查、监测研究报告.docx
- 2026年及未来5年煤气管内壁防腐面漆项目市场数据调查、监测研究报告.docx
- 2026年及未来5年铁路车号智能识别系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年开关电容电压转换器项目市场数据调查、监测研究报告.docx
- 2026年及未来5年热电金属材料项目市场数据调查、监测研究报告.docx
- 2026年及未来5年软木积木玩具项目市场数据调查、监测研究报告.docx
- 2026年及未来5年集中供料中央控制系统产品项目市场数据调查、监测研究报告.docx
- 2026年及未来5年大跨距水平弯通桥架项目市场数据调查、监测研究报告.docx
- 2026年及未来5年珍珠咪线项目市场数据调查、监测研究报告.docx
- 2026年及未来5年反渗透除盐水成套设备项目市场数据调查、监测研究报告.docx
最近下载
- 烟台大学 积极心理学教案烟台大学 积极心理学教案.doc VIP
- 内镜室护士培训课件.pptx VIP
- TED中英官方演讲稿-PatriciaMedici_2015F[Patricia Medici][你一无所知的一种最酷的动物 _ 我们该如何拯救它].pdf VIP
- 专题十 等边三角形(2)——手拉手与夹半角的构造.pptx VIP
- 课题结题报告.docx VIP
- 生成式AI在初中数学课堂中促进分层教学的实践研究教学研究课题报告.docx
- 2022年新生儿科第二季度核心能力考试 (1).docx VIP
- 已更新:安全生产法律法规清单(2025年6月版).doc
- 专题二 全等基本结构(2)——夹半角的构造与截长补短.pptx VIP
- 档案录入员考试真题及答案.docx VIP
原创力文档


文档评论(0)