- 7
- 0
- 约4.02千字
- 约 6页
- 2016-12-02 发布于浙江
- 举报
新型走进搜索引擎读书笔记
走进搜索引擎读书笔记
2012-5-20
基本概念
网页级、对象级和垂直搜索
网页级和对象级是针对搜索粒度而言,对象级特指那些针对对象属性进行的搜索;而网页级搜索并没有将具体的网页内容对象化。
垂搜在于其限定了某个领域、行业或者话题等,搜索的人群都是固定局限的。
死链
在实际使用搜索引擎时会出现有搜索结果链接“打不开”的情况
检索查找的三类信息:
——导航类查询:查找一个用户已知的网页(帮助其找到对应的URL),如“清华大学”。按照查找目标页面的不同细分为特殊需求页面定位任务和主页定位任务两类,主页定位任务的目标页面是站点/子站点的主页;而特殊需求页面定位任务的目标页面是主页以外的页面。
——信息类查询:查找关于某个查询主题的相关信息,如“菲律宾示威游行”
——事务类查询:查找关于某个内容的网络服务,如购物服务、查询服务及下载服务等,如“mp3下载”
信息熵
即消息X的熵,信息集X发出任意一个随机事件的平均信息量,即用多少个二进制表示一个消息。
检索和查询
对于查询来说,适用于真实用户进行的一次查询是相对于搜索引擎查询系统而言的;查询的结果是搜索结果网页。
对于检索来说,适用于检索代理对索引库进行的一次检索是相对于搜索引擎索引系统而言的,检索的结果是与查询词相关的文档列表。
检索词和查询词
严格意义上,普通用户提交给查询系统的关键词称“查询词”
经过查询系统分词,提交检索代理的称“检索词”
自动文本摘要
是从文档中自动提取出的一个正文片段。用户仅仅需要浏览整个正文片段就能够了解文档中与查询词相关的部分,进而判断是否值得详细阅读整篇文档。
有4个特征——摘要的指示性(必须能够指出查询词在文档中的位置)、摘要的描述性(尽量能包含所有的查询词,如果不能全部包含,也要尽可能包含权重更高的查询词)、摘要的简洁性(长度控制在一定的范围内)、摘要完整性(摘要的句子必须完整)
检索模型
布尔模型——表达简单易于实现且检索速度快,但缺乏灵活性、没有考虑到关键词在查询中的权重问题
向量空间模型——将查询词和文档向量求相似度
关键词权重的量化经典方法TF/IDF——不是仅仅通过词频,而是用熵
PageRank与搜索结果的排序不同
PageRank得到所有文档里重要性最高的文档集合,而搜索结果的排序是从这些重要性高的文档中按与查询词匹配程度由高到低排序。
文档和文档编号
文档——结构化的网页对象(包括标题、正文和URL等信息的结构体)
文档编号——网页的编号
网页重要性评价的三个指标:
——认可度越高的网页越重要,即反向链接越多的网页越重要;
——反向链接的源网页质量越高,被这些高质量网页的链接指向的网页越重要;
——链接数越少的网页越重要
万维网的蝴蝶结型结构
其中SCC,strongly Connected Component,这种类型的网页彼此相连,任意去掉有限个网页,不会影响其连通度。不管是从正向或反向遍历从统计的角度上看都可以遍历占全部网页的3/4的网页数
蝴蝶结的左部(IN),这种类型的网页指向中心部分,称为目录型网页,通常说的导航网页,如果采用正向遍历的方法可以遍历占全部网页3/4的网页数;采用反向遍历的方法只能遍历很有限的一些网页。
蝴蝶结的右部(OUT),这种类型的网页被中心部分指向,称为权威性网页,这些网页被引用次数多,表示为大多数网页对其“认可度”高。
蝴蝶结的须脚(Tendrils),这种类型的网页表现为从左部链出到其他网页,或者其他网页链入右部或从左部直接链入右部,以及少部分与中部、左部或右部都没有链接的
万维网的直径,如果用d表示存在一条网页u到网页v的路径,那么这些万维网上所有不同的连通网页对所构成的最短路径的平均长度,统计得到大约17左右。
爬虫,一组运行在计算机中的程序,在搜索引擎系统中负责抓取时新的且公共可访问的web网页、图片和文档等资源。
搜索引擎的主要特点:查的快、查的全、查得准、查得稳
搜索引擎公认的有3种服务方式:目录式搜索引擎【yahoo、sohu】、全文搜索引擎、元搜索引擎【将用户的查询请求同时向多个搜索引擎递交,然后将返回的结果进行重复排除及重新排序等处理后作为自己的结果返回给用户,如webcrawler】
基本结构及原理
四大部分,
——查询系统
分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。
——索引系统
将分析系统处理后的网页对象索引入库。
1、URL唯一标识一个文档,但是不方便计算和存储,因此需要将用MD5签名得到一个整型数据,再对这个数进行压缩,如游程编码/差分/变长编码。
2、正排索引(前向索引):以文档编号为主键
倒排索引:以关键词作为主键
从而导致,正排索引是一个文档对应多个关键字,
您可能关注的文档
- 新型财经法规和职业道德(第一章会计法律制度).doc
- 新型财务部主要岗位说明书和工作职责.doc
- 新型败者(企业经典失败案例分析).doc
- 新型账号1.doc
- 新型谷泉会议中心工程GRC幕墙安装质量和施工安全控制.doc
- 新型货币政策新工具.docx
- 新型货币银行学名词解释总复习.doc
- 新型质量体系-SA8000社会责任管理体系审核检查表(DOC 19页).doc
- 新型质量保证.docx
- 新型质量保证体系.doc
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
原创力文档

文档评论(0)