- 1、本文档共380页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章-搜索引擎技术
北京大学软件与微电子学院2009年度课程 第八章 搜索引擎技术 2010年11月 主要内容 信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术 查询分析技术 结果呈现技术 搜索引擎的评估技术(Evaluation) 主要内容 信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术 查询分析技术 结果呈现技术 搜索引擎的评估技术(Evaluation) 信息的采集技术 信息采集的概念 主要是指通过Web页面之间的链接关系从Web上自动获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程,信息采集系统也常常称为Robot, Spider, Crawler等等 信息采集是搜索引擎获得数据来源的过程,地位相当重要 信息采集的目标:快速获得高质量的网页 信息采集是一项十分繁杂和庞大的工程 不同的协议 不同的网络情况 时效性的要求 网页质量的要求 实际上是图的遍历过程 通过种子页面或站点(Seed),获取更多的链接,将它们作为下一步种子,循环 这个过程一般永远不会结束! WEB图结构 WEB图中的一些概念 节点(Node):指每个网页,当图中每个连接的单位是网站时,每个网站看成一个Node。 入度(In degree):每个Node的入度指的是指向该Node的Node数目。 出度(Out degree):每个Node的出度指的是该Node指向的Node数目。 WEB的相关特性(1) Power Law(幂分布定律):WEB的很多属性满足f(x)=x-λ, λ1 WEB的相关特性(2) Small world(小世界)理论:整个WEB虽然庞大,但是任意两点之间的平均距离却不大。有人做过实验,计算出整个WEB的平均距离约为19。 人类社会的六度分离理论,人类社会至多通过6人可以实现两人的互通。 WEB的相关特性(3) WEB的结构:蝴蝶结型(Bow-tie) SCC为连通部分 IN中网页指向SCC SCC指向OUT中网页 非连通部分(Tendrils) 信息采集的基本结构 采集的遍历算法 宽度优先 vs. 深度优先 宽度优先:先采集完同一层的网页,再采集下一层网页 深度优先:先沿一条路径采到叶节点,再从同层其他路径进行采集 有研究表明:宽度优先的方法得到的网页集合的重要性更好 网站采集 vs. 全局URL采集 网站采集:一个网站一个网站采集 全局URL采集:将所有URL放入一个URL池,从中使用某种方法进行选择 网站采集在支持应用方面灵活性大一些,但是采集效率可能不如全局URL采集,通常的搜索引擎采用全局URL采集的方法。 采集网页的更新策略 定期重采:一段时间以后重新采集所有网页,全部采完以后替换原来的网页 增量采集:只按照某种策略采集那些可能新增、变化的网页,并删除那些已经不存在的网页 定期重采非常简单,但是浪费带宽,周期也长;增量采集可以节省带宽,网页更新周期相对较短,但是系统的复杂性增大。 采集网页的速度保证措施 本地DNS解析 多机分布式并行 局域网联接多机进行采集并行 广域网分布式采集 单机多程序并行 多进程并行 多线程并行 采集网页的质量保证措施 减少重复页面的采集 URL重复的检测和排除 内容重复的检测和排除 保证重要页面的高优先级 入度高的网页相对重要 URL浅的网页相对重要 含有被别人广泛映像的内容的网页重要 采集中的“礼貌”问题 遵守网站上发布的Robot.txt 采集限制协议 采集时尽量不要太过密集地采集某个网站,这种密集访问类似于DoS攻击,导致普通用户正常浏览网站产生困难。有些网站会严密控制这种密集访问行为。 信息采集的研究趋势 高速、高质量信息采集 个性化信息采集 只采集符合用户的兴趣的数据 基于主题的信息采集 采集某个领域的数据 信息采集及抽取 采集后提取结构化信息 主要内容 信息采集技术(Information gathering) 信息的组织和索引(Information organizationindexing) 相似度计算—信息检索模型(IR models) 链接分析技术 查询分析技术 结果呈现技术 搜索引擎的评估技术(Evaluation) 信息的组织和索引(Information organizationindexing) 提纲 字符串匹配 前向索引 倒排索引 课前思考题 Google号称80亿网页,Baidu也有10亿网页,数量可谓巨大,但是当我们输入一个查询时,返回时间往
您可能关注的文档
- 第一章细菌的形态与构造.ppt
- 第一部分 沈阳市洗浴市场调查报告.doc
- 第一讲_管理学概述.ppt
- 第一部分 学习指导.doc
- 第一部分研究的本质.doc
- 第一讲:糖尿病基础知识及并发症状.ppt
- 第七章__图_最短路径.ppt
- 第七章__薪酬管理.ppt
- 第七届企业经营管理个案研讨会.ppt
- 第七章-互联网应用技术概论.ppt
- 2025至2031年中国酪胺盐酸盐行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国金属电刷马达行业投资前景及策略咨询研究报告.docx
- 2023华数之星夏令营广州站小高组(附答案) .pdf
- 2023医院工作总结及2024年工作计划方案 .pdf
- 2025至2031年中国钢铁企业生产计划平衡解决方案行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国邦欣行业投资前景及策略咨询研究报告.docx
- 2025至2031年中国钻尾螺栓行业投资前景及策略咨询研究报告.docx
- 2023年-2024年安全知识培训试题附完整答案【全优】 .pdf
- 2025-2026年试验检测师之桥梁隧道工程每日一练试卷A卷含答案.pdf
- 2023年辽宁版车工(高级)考试内部摸底题库含答案 .pdf
最近下载
- 人教版小学数学五年级下册第一单元《观察物体(三)》大单元教学设计.docx VIP
- 《人力资源会计在企业成本管理的应用案例研究—以A公司为例》11000字.docx
- 人教版劳动教育七年级上册全册教学课件.pptx
- 人教版小学数学五年级下册第一单元《观察物体(三)例1》课时教学设计.docx VIP
- 集成运放的基础知识.ppt VIP
- 人教PEP英语六年级下册第一单元大单元教学课件.pptx
- 《万里长城简介》课件.ppt VIP
- 新疆某公司水产养殖建设项目可行性研究报告.doc
- 全国青少年创意编程与智能设计大赛图形化编程模拟题库试题含答案.docx
- 政协领导干部2024年度民主生活会的对照检查材料(四个带头).docx VIP
文档评论(0)