- 6
- 0
- 约3.41千字
- 约 24页
- 2018-10-15 发布于江苏
- 举报
搜索引擎和eommerce(续)
搜索引擎和eCommerce(续) 参考Jaime Carbonell教授的讲义 建一个搜索引擎 (1) 得到一个文档集合,C 要一个(例如从北京大学网络实验室),买一个(例如从Inktomi) 自己从Web上爬取一个 或者,收集本单位网站上的内容 爬取,或者直接得到 建一个搜索引擎 (2) 对这个文档集合建立索引 基于收集的文档集合C建立一个词典 找到所有的词,可以考虑取词根 过滤掉停用词 也可以考虑产生一些短语作为词项, 记Σ为词项的集合 对Σ中的每一个wi 计算并存储其 log2IDF 找到所有wi 在其中出现的文档 Dj 存储文档的标识 ID(Dj) 和 wi 在其中的位置 建一个搜索引擎 (3) 查询Q和文档的匹配 过滤掉不在 Σ中的词 计算 ArgmaxkDj in C[sim(Q, Dj] 用点乘或者cosine相似度 用倒排索引结构 搜索引擎Business (1) 所提供的服务 定位(最)有用的网页 两步曲:“给出查询,得到结果列表 然后基于综述点击察看 搜索引擎Business (2) 收入模型 追求流量 = 广告等 Lycos, Google, AltaVista, Excite, Metacrawler... 安装intranet搜索,收费;或者为其他网站提供搜索服务 Inktomi, Verity, Google, Condor...
您可能关注的文档
最近下载
- 2025年6月福建省高中学业水平合格性考试(会考)生物试题(含答案解析).docx VIP
- 2026年山西初中学业水平测试靶向模考试卷(二)语文(真题含答案解析).docx VIP
- 光伏发电组件负离子除尘装置及除尘方法.pdf VIP
- 【生物】期末复习课件-2025-2026学年-人教版初中生物八年级下册.pptx VIP
- 象棋社团活动计划及活动教案.docx VIP
- 血透患者阶段小结.xls VIP
- (2003年全国高考物理试题附答案.doc VIP
- 资料课件文稿分析ciba lanaset dyeing system for wool.pdf VIP
- 2002年普通高等学校招生全国统一考试(全国卷.理科综合)高考物理试卷(含答案).pdf VIP
- 电梯修理施工方案.docx VIP
原创力文档

文档评论(0)