搜索引擎和eommerce(续).pptVIP

  • 6
  • 0
  • 约3.41千字
  • 约 24页
  • 2018-10-15 发布于江苏
  • 举报
搜索引擎和eommerce(续)

搜索引擎和eCommerce(续) 参考Jaime Carbonell教授的讲义 建一个搜索引擎 (1) 得到一个文档集合,C 要一个(例如从北京大学网络实验室),买一个(例如从Inktomi) 自己从Web上爬取一个 或者,收集本单位网站上的内容 爬取,或者直接得到 建一个搜索引擎 (2) 对这个文档集合建立索引 基于收集的文档集合C建立一个词典 找到所有的词,可以考虑取词根 过滤掉停用词 也可以考虑产生一些短语作为词项, 记Σ为词项的集合 对Σ中的每一个wi 计算并存储其 log2IDF 找到所有wi 在其中出现的文档 Dj 存储文档的标识 ID(Dj) 和 wi 在其中的位置 建一个搜索引擎 (3) 查询Q和文档的匹配 过滤掉不在 Σ中的词 计算 ArgmaxkDj in C[sim(Q, Dj] 用点乘或者cosine相似度 用倒排索引结构 搜索引擎Business (1) 所提供的服务 定位(最)有用的网页 两步曲:“给出查询,得到结果列表 然后基于综述点击察看 搜索引擎Business (2) 收入模型 追求流量 = 广告等 Lycos, Google, AltaVista, Excite, Metacrawler... 安装intranet搜索,收费;或者为其他网站提供搜索服务 Inktomi, Verity, Google, Condor...

文档评论(0)

1亿VIP精品文档

相关文档