- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.5.2 数据与事实型站点资源 2.百科全书类 (1)中文维基百科:/wiki/%E9%A6%96%E9%A1%B5 (2)ITWiki:/index.php/ (3)Encarta: (4)中国百科全书网: (5)智慧藏百科全书网:/ (6)中华百科全书网:.tw/chinese/index.asp (7)大不列颠百科全书网站: {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 3.5.2 数据与事实型站点资源 3.年鉴、统计资料类 (1)《咨询年鉴》网络版: (2)中国年鉴信息网: (3)中国年鉴网: (4)联合国统计署数据库:/unsd (5)联合国发展计划署: (6)联合国教科文组织统计学会: (7)中国统计信息网: {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 第4章 网络信息检索 4.1网络信息检索的含义 4.2搜索引擎 4.3谷歌 4.4 AltaVista {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 4.1网络信息检索的含义 网络信息检索一般是指因特网检索,是通过网络接口软件实现信息检索,如百度和谷歌等。用户可以在一个终端查询各地上传到网络的信息资源。这一类网络检索系统都是基于互联网的分布式特点开发和应用的,即:数据是分布式存储的,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。 {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 4.2搜索引擎 4.2.1搜索引擎的工作原理 4.2.2搜索引擎的组成 4.2.3搜索引擎的分类 4.2.4搜索引擎的信息检索模型 4.2.5搜索引擎检索技巧 4.2.6网上著名搜索引擎 {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 4.2.1搜索引擎的工作原理 搜索引擎的工作原理,即搜索工作的过程:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 1.从互联网上抓取网页 利用能够从互联网上自动收集网页的蜘蛛(Spider)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 2.建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 3.在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度已计算完成,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 4.2.2搜索引擎的组成 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。 1.搜索器 其功能是负责在互联网中漫游,抓取网页信息的工作,将抓取的网页内容进行切词处理并自动进行标引,建立索引数据库。 2.索引器 其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 3.检索器 其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。 4.用户接口 其作用是根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户,同时提供个性化查询项。 {DATE \@ yyyy年M月d日aaaa|2021年10月30日星期六} * 4.2.3搜索引擎的分类 1.全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 2.目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键
您可能关注的文档
- 现代教育技术-电子教案全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 现代教育技术-全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 现代教育技术任务驱动教程-电子教案全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 现代教育技术任务驱动教程全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 信号与系统(第二版)全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 信息资源检索与利用-电子教案全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 营销会计-电子教案全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 营销会计-电子教案-全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 园林工程招投标与预决算-电子教案全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- 园林工程招投标与预决算-全套电子课件完整版ppt整本书电子教案最全教学教程整套课件.ppt
- c程序员面试题及答案.doc
- 第01讲 运动的描述(练习)(解析版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- c的面试题及答案.doc
- 第01讲 运动的描述(练习)(原卷版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- 2003年非典后航空复盘分析报告.pdf
- 第02讲 匀变速直线运动的规律(练习)(解析版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- 第02讲 匀变速直线运动的规律(练习)(原卷版)-【上好课】2025年高考物理一轮复习讲练测(新教材新高考).pdf
- c考试题库及答案.doc
- c面试题及答案.doc
- 汽车管件及座椅骨架、异形金属结构件生产线改造项目(技术改造)报告表.pdf
最近下载
- 黑龙江地方三年级下册《人文与社会》第一单元第二节《舞动的生活》课件.pptx
- 2024年外研版小学四年级下册英语教学计划及进度表(三年级起点).docx
- 2024 年普通高等学校招生全国统一考试(新课标 I 卷)-数学解析-全国.docx VIP
- 训练 14 单项选择题(句子种类精选100题)-2024初中英语中考题型汇编高分训练(全国通用).docx VIP
- 航空公司孕妇乘机证明模板.doc
- drg的应用实践与思考课件.ppt
- 食品安全培训课件:《确保校园(学校食堂)食品安全》.pptx
- 《氓》公开课一等奖.ppt
- 2024年黑龙江冰雪体育职业学院单招数学考试试题及答案解析.docx
- 化工企业风险评估报告书.pdf
文档评论(0)