- 116
- 0
- 约1.1千字
- 约 42页
- 2019-11-18 发布于广东
- 举报
阿拉丁系统介绍;主要内容;阿拉丁介绍;普通阿拉丁—对接自有资源/开放/垂类数据;从知心到知识图谱—信息脉络/知识推理;右侧推荐;总结:阿拉丁特点;精准对接最优质的 资源、服务、知识,
极致满足用户更便捷获取信息 的需求,
同时 激发 更多潜在需求。;Part2. 系统设计和子模块介绍;业务支撑平台;Spider-EC;在线系统;Vortex流式计算系统;Spider-EC;在线架构;Mini-BS;需求识别与Query理解;需求识别与Query理解;;;;影响是否展现因素
1) 需求识别
2) 后端检索
3) 类聚去重pk
4) 人工pk策略
5) 最终排序位置
抽样策略
其他策略;GSS:高级检索模块,类似于大搜ac的地位,查询并归并多个库的结果。
技术要点:支持万级别的资源,资源动态增减,配置词典动态实时更新。;BS0;高级rank;[RANK需求汇总];业务支撑平台;业务支撑平台;29;/;技术要点
1) Query 支持 TraceAPI,实时按qid分布式 LogScan
2) URL 关键状态通过 NetLog 集中写状态变更
3) 打通 icafe ,Case 建档归类,辅助决策;发现
问题;问题自动定位平台;Part3. 检索机制和上线流程;开放数据平台按照需求特点对行业进行细分类,
制定行业数据规范,建立通用的数据引入机制,
引导站长按照数据接口,把高质量的结果提交给百度,
PM 审核站点资质,内容质量,确认后数据上线;产品定位:
诣在解决网页搜索中,特定垂直领域内的用户需求与优质资源的对接问题。充分利用互联网现有资源,辅以最合理的展现方式,极大程度满足相应用户需求。
特点:
1. 互联网中存在一家或多家优质资源,数据以结构化的形式存在,数据量一般较大且传统spider抓取方式通常无法有效获取数据。
2. 用户需求不一定能被单一资源完全满足(多资源:招聘, 单资源:邮编)
3. 用户表述方式无法简单穷举,但可以被解析为针对结构化数据在某几个维度上的检索需求。;几个垂直产品展示;资源引入机制:
使用spider的数据主动推送平台。支持 xml/index + delete 数据接口
站长每天把新增的数据和实效的数据提交上来
数据推送平台功能:
发布规范:百度管理员根据应用类型,发布数据文件格式规范。
资格审查:百度管理员审核站长提交的数据是否符合收录标准。
提交链接:站长按照规范填写ResourceMap,提交链接。
收录反馈:站长通过平台查看资源的抓取、收录情况。;39;40;41;QA
您可能关注的文档
最近下载
- 2025年加州驾照常考题库及答案.doc VIP
- 欧洲规范-NF P94-093-中文版.pdf VIP
- 欧洲规范-NF P94-078-中文版.pdf VIP
- SY_T 5333-2023 钻井工程设计规范.pdf VIP
- 深度解析(2026)《SYT 5946-2019钻井液用包被抑制剂 聚丙烯酰胺钾盐》.pptx VIP
- 卧式储罐体积容积计算(带公式).xls VIP
- 深度解析(2026)《SYT 5661-2019钻井液用增粘剂 丙烯酰胺类聚合物》.pptx VIP
- SY_T 5061-2020 钻井液用石灰石粉.docx VIP
- 深度解析(2026)《SYT 5677-2019钻井液用滤纸》.pptx VIP
- ICU常用药物中英文对照一览表.doc VIP
原创力文档

文档评论(0)