阿拉丁系统介绍-T1.5.pptxVIP

  • 116
  • 0
  • 约1.1千字
  • 约 42页
  • 2019-11-18 发布于广东
  • 举报
阿拉丁系统介绍;主要内容;阿拉丁介绍;普通阿拉丁—对接自有资源/开放/垂类数据;从知心到知识图谱—信息脉络/知识推理;右侧推荐;总结:阿拉丁特点;精准对接最优质的 资源、服务、知识, 极致满足用户更便捷获取信息 的需求, 同时 激发 更多潜在需求。;Part2. 系统设计和子模块介绍;业务支撑平台;Spider-EC;在线系统;Vortex流式计算系统;Spider-EC;在线架构;Mini-BS;需求识别与Query理解;需求识别与Query理解;;;;影响是否展现因素 1) 需求识别 2) 后端检索 3) 类聚去重pk 4) 人工pk策略 5) 最终排序位置 抽样策略 其他策略;GSS:高级检索模块,类似于大搜ac的地位,查询并归并多个库的结果。 技术要点:支持万级别的资源,资源动态增减,配置词典动态实时更新。;BS0;高级rank;[RANK需求汇总];业务支撑平台;业务支撑平台;29;/;技术要点 1) Query 支持 TraceAPI,实时按qid分布式 LogScan 2) URL 关键状态通过 NetLog 集中写状态变更 3) 打通 icafe ,Case 建档归类,辅助决策;发现 问题;问题自动定位平台;Part3. 检索机制和上线流程;开放数据平台按照需求特点对行业进行细分类, 制定行业数据规范,建立通用的数据引入机制, 引导站长按照数据接口,把高质量的结果提交给百度, PM 审核站点资质,内容质量,确认后数据上线;产品定位: 诣在解决网页搜索中,特定垂直领域内的用户需求与优质资源的对接问题。充分利用互联网现有资源,辅以最合理的展现方式,极大程度满足相应用户需求。 特点: 1. 互联网中存在一家或多家优质资源,数据以结构化的形式存在,数据量一般较大且传统spider抓取方式通常无法有效获取数据。 2. 用户需求不一定能被单一资源完全满足(多资源:招聘, 单资源:邮编) 3. 用户表述方式无法简单穷举,但可以被解析为针对结构化数据在某几个维度上的检索需求。;几个垂直产品展示;资源引入机制: 使用spider的数据主动推送平台。支持 xml/index + delete 数据接口 站长每天把新增的数据和实效的数据提交上来 数据推送平台功能: 发布规范:百度管理员根据应用类型,发布数据文件格式规范。 资格审查:百度管理员审核站长提交的数据是否符合收录标准。 提交链接:站长按照规范填写ResourceMap,提交链接。 收录反馈:站长通过平台查看资源的抓取、收录情况。;39;40;41;QA

文档评论(0)

1亿VIP精品文档

相关文档