腾讯大的讲堂25-企业级搜索托管平台介绍.pptVIP

  • 0
  • 0
  • 约3.5千字
  • 约 29页
  • 2016-11-03 发布于山西
  • 举报

腾讯大的讲堂25-企业级搜索托管平台介绍.ppt

腾讯大的讲堂25-企业级搜索托管平台介绍

企业级搜索托管平台介绍 Smith. 2008.3.26. 搜索技术中心. 目录 检索算法基础 搜索托管平台介绍 搜索托管平台展望 第一部分 检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望 检索算法基础-基本概念 检索算法基础-基本概念 名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文档ID WordID, 词ID Inverted Index, 倒排 Forward Sort, 顺排 Broker, 代理 Cache, 缓存(检索结果) Abstract, 摘要 Query Keywords, 检索串 检索算法基础-基本概念 问题1:信息如何表示? 信息的来源? Q SINA.COM QQ Mail … … 如何表示? 对于非结构化信息,需要进行抽取、整理,转换成格式化信息; 格式化信息还需要进行过滤,去除无用信息,去噪; 最后表示为格式化文档, DataSrc := { Doc } * ; Doc := {DocID,{Text Field}*, {Num Field}*}* ; 例如: DocID := 46233597118 ; Text Field := { Title: 我的博客,Text:

文档评论(0)

1亿VIP精品文档

相关文档