- 2
- 0
- 约4.95万字
- 约 50页
- 2019-03-17 发布于江苏
- 举报
简单搜索引擎模型
A Simple Scratch of Search Engine
作者
史春奇,
搜索工程师,
中科院计算所毕业,
HYPERLINK mailto:chunqi.shi@ chunqi.shi@
HYPERLINK /shichunqi /shichunqi
计划:
需求迫切 07/06完成
搜索引擎简单模型 07/08完成
信息导航模型 07/16完成1/3 数据抓取 07/30 预处理
商家推广模型
未来
本文是学习搜索引擎的涂鸦草稿, 高深读者请拐弯到: HYPERLINK /IR-Guide.txt /IR-Guide.txt (北大搜索引擎小组--信息检索指南)
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc269251565 简单搜索引擎模型 PAGEREF _Toc269251565 \h 1
HYPERLINK \l _Toc269251566 A Simple Scratch of Search Engine PAGEREF _Toc269251566 \h 1
HYPERLINK \l _Toc269251567 第一章 需求迫切 PAGEREF _Toc269251567 \h 2
HYPERLINK \l _Toc269251568 一)泛信息化 PAGEREF _Toc269251568 \h 2
HYPERLINK \l _Toc269251569 二)泛商品化 PAGEREF _Toc269251569 \h 2
HYPERLINK \l _Toc269251570 第二章 导航模型--草根需求信息 PAGEREF _Toc269251570 \h 3
HYPERLINK \l _Toc269251571 第一节 最直观简单模型 PAGEREF _Toc269251571 \h 3
HYPERLINK \l _Toc269251572 第二节 互联网简单模型 PAGEREF _Toc269251572 \h 5
HYPERLINK \l _Toc269251573 1.发展历史 PAGEREF _Toc269251573 \h 6
HYPERLINK \l _Toc269251574 2.大陆互联网现状 PAGEREF _Toc269251574 \h 7
HYPERLINK \l _Toc269251575 3.草根需求 PAGEREF _Toc269251575 \h 10
HYPERLINK \l _Toc269251576 第三节 网页抓取简单模型 PAGEREF _Toc269251576 \h 10
HYPERLINK \l _Toc269251577 1. 最简单Spider抓取模型 PAGEREF _Toc269251577 \h 11
HYPERLINK \l _Toc269251578 2. 最简单Spider调度模型 PAGEREF _Toc269251578 \h 12
HYPERLINK \l _Toc269251579 3. 最简单Spider调度质量模型 PAGEREF _Toc269251579 \h 15
HYPERLINK \l _Toc269251580 4. 最简单Spider调度策略模型 PAGEREF _Toc269251580 \h 18
HYPERLINK \l _Toc269251581 5. Spider的常见问题 PAGEREF _Toc269251581 \h 23
HYPERLINK \l _Toc269251582 第四节 网页预处理简单模型 PAGEREF _Toc269251582 \h 23
HYPERLINK \l _Toc269251583 1. 质量筛选(Quality Selection) PAGEREF _Toc269251583 \h 24
HYPERLINK \l _Toc269251584 2. 相似滤重(De-duplicate) PAGEREF _Toc269251584 \h 35
HYPERLINK \l _Toc269251585 3. 反垃圾(Anti-spam) PAGEREF _Toc269251585 \h 43
HYPERLINK \l _Toc269251586 第五节 索引存储简单模型 PAGEREF _Toc269251586 \h 48
HYPERLINK \l _Toc269251587 第六节 检索框架简单模型 PAGEREF _Toc269251587 \h 48
HYPERLINK \l _Toc269251588 信息检索评价指标
原创力文档

文档评论(0)