- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[农学]搜索引擎技术基础
搜索引擎原理 目录 一、搜索引擎总体介绍 一、搜索引擎总体介绍 (三)搜索引擎的组成部分 搜索引擎一般包括四个组成部分: 搜索器、索引器、检索器、用户接口 搜索器(爬虫SPIDER)的功能是在Internet中漫游,发现和搜集信息。 索引器(INDEXER)的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于描述文档以及生成文档集的索引表。 检索器(SEARCHER)的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 用户接口(USER INTERFACE)的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 一、搜索引擎总体介绍 二、爬虫技术介绍 二、爬虫技术介绍 二、爬虫技术介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 三、中文分词和排序算法介绍 (二)排序算法: GOOGLE的PageRank技术 PageRank 技术是Google 检索结果的一种排序算法, 中文通常译为页面级别或页面等级, 根据这个算法, Google 认为每个网页都有一个反映其重要性的值, 值越高表明其页面级别越高, 即网页越重要; 网页的质量和重要性也可以通过其它网页对其超文本链接的数量来衡量, 具体来说, 假如网页A 有一个指向网页B 的链接, 则意味着网页A 认为网页B 是重要的。Google 根据网页被链接的数量来评定其重要性。假如有10 个网页指向网页A , 而指向网页B 的链接却只有2 个, 则说明网页A 比网页B更加重要。 (二)排序算法: GOOGLE的PageRank技术 事实上, 在实际计算网页的PageRank 值时, Google 还考虑到网页A 的所有链入网页(链接到某网页的其它网页称为该网页的链入网页) 对它的推荐能力(即由于它们对网页A的链接, 使人们认为网页A 的重要程度) 和推荐程度(即它们认为网页A 的重要程度)。 一个网页本身的PageRank 值越高, 则它对其链出网页(从某个网页链出的网页称为该网页的链出网页) 的推荐能力就越大; 一个网页的链出网页越少, 那么它对其中一个链出网页的推荐程度就越高。 我们可以用以下公式来简要表达Google 关于网页 PageRank 值的计算: PR (A ) = (1- d) + d[(PR (T1)/C (T1) + ..+ PR (Tn)/C (Tn) ] 其中, PR (A ) 是指网页A 的PageRank 值; T1, T2, ., Tn 是网页A 的链入网页; PR (T i) 是指网页T i 的PageRank 值( i= 1, 2, .n) ; C (T i) 是指网页T i 的链出网页的数量( i= 1, 2, .n) ; d 是一个衰减因子, 0 d 1, 通常取值为0. 85。 (二)排序算法: GOOGLE的PageRank技术 可见, 一个网页的PageRank 值, 主要取决于以下三个因素: (1) 该网页的链入数量; (2) 该网页的链入网页本身的PageRank 值; (3) 该网页的链入网页本身的链出数量。 显然, 根据以上公式, 一个网页的链入数量越多、这些链入网页的PageRank 值越高、这些链入网页本身的链出数量越少, 则该网页的PageRank 值越高。 (二)排序算法: GOOGLE的超文本匹配分析技术(Hypertext- Matching Analysis) 不仅仅关注关键词在网页上出现的次数, 它还对该网页的内容加以分析,如分析关键词的字体、字号以及关键词在网页中出现的精确位置, 并且对该网页以及该网页所链接的内容进行全面检查, 从而判断该网页与检索需求的匹配程度。 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍 四、查询/存储技术、Cache Server介绍
您可能关注的文档
- [企业管理]6目标导向与管理.ppt
- [企业管理]35企业微博平台介绍第三版.ppt
- [从业资格考试]造价员考试建筑工程量速算方法实例详解.doc
- [企业管理]MBA论文大型旅游集团的战略研究.doc
- [企业管理]MyWay TD-SCDMA 培训.pdf
- [企业管理]【人性解码】领导力案例_领导力专家-姜博仁.pdf
- [企业管理]公司安全教育培训.ppt
- [企业管理]化妆技巧常识.doc
- [企业管理]农民专业合作社建设与管理.ppt
- [企业管理]北大民事诉讼法笔记内部资料_7_7.doc
- 艺术疗法行业商业机会挖掘与战略布局策略研究报告.docx
- 智能家庭娱乐系统行业商业机会挖掘与战略布局策略研究报告.docx
- 医疗纠纷预防和处理条例与医疗事故处理条例的思考分享PPT课件.pptx
- 新冀教版(2025)七年级数学下册《6.1 二元一次方程组》习题课件.pptx
- 新冀教版(2025)七年级数学下册精品课件:6.2.3 二元一次方程组的解法代入、加减消元法的综合应用.pptx
- 导演节目行业市场发展趋势及投资咨询报告.docx
- 制作和服培训行业风险投资态势及投融资策略指引报告.docx
- 医疗转诊的行政服务行业消费市场分析.docx
- 文件装订行业市场发展趋势及投资咨询报告.docx
- 在线语言艺术教育行业分析及未来五至十年行业发展报告.docx
文档评论(0)