- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 第2章 互联网信息检索概论 2.1互联网信息检索类型和特点 2.2互联网信息检索原理之一——信息组织 2.3互联网信息检索原理之二——信息查询 2.4互联网检索工具的性能评价 2.1互联网信息检索的类型和特点 2.1.1互联网信息检索的类型 2.1.2互联网信息检索的特点 2.1.1互联网信息检索的类型 1、“顺链而行”的浏览 基于互联网“超链接”的技术特点,用户在浏览网页时,可以非常方便地利用超文本文件中的链接从一个网页跳转到另一个相关网页。这些类似于传统文献检索中的“追溯检索”,但是检索效率已大大提升。追踪网页的超链接,用户可以一轮一轮不断地扩大检索范围,在很短的时间内获得大量相关信息。 在互联网发展初期,“顺链浏览”的人工浏览方式是互联网信息检索最主要的手段,而浏览器的“书签”(收藏夹)功能是成为该阶段被使用得最多的功能之一。 马云与黄页 1995年4月,马云和妻子再加上一个朋友,凑了两万块钱,专门给企业做主页的杭州海博网络公司就这样开张了,网站取名“中国黄页”,成为中国最早的互联网公司之一。其后不到三年时间,他们利用该网站赚到了500万元。 中国黄页2009年6月1日,网站正式上线,完全公益性网站,不收任何费用! 人们对互联网信息的寻找,从最原始的“顺链浏览”到黄页等早期检索工具,实现了第一个飞跃。互联网黄页本质上就是一种目录型检索工具。 2、基于目录型检索工具的互联网信息检索 目录型检索工具,也被称为网络资源目录或网络主题指南,它是一种基于人工的检索工具,由人工发现、抓取、辨别互联网信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据的体系,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面,用户通过逐级浏览这些目录来查询自己所需要的内容。 最具代表的互联网目录型检索工具当属“yahoo”(雅虎),是由斯坦福大学的研究生杨致远(Jerry Yang)和David Filo与1993年创立的。 互联网刚开始发展时,他们在网上冲浪时,逐渐把自己喜爱的站点编成一个名单以便寻找,并将这一名单在网上公布,供网友使用,这就是雅虎的前身,也是目录型检索工具的工作原理。 张朝阳在中国创办“搜狐”,也是比较成功典型的互联网目录型检索工具。 优点:人工参与度高,网络资源目录的组织编排符合人们所熟悉的知识分类体系,检索目标性相对较强,提供的检索结果准确性也较高。 缺点:信息涵盖量不大,更新能力有限,相对成本较高。 面临挑战:在互联网发展早期,为人们检索互联网站点提供了极大的方便,但随着互联网的持续发展,它的缺点也越来越明显,其地位收到了以Google为代表的搜索引擎的挑战。 时过境迁,雅虎和搜狐都已经发展成了门户网站。 补充:门户网站 中国四大门户网站:新浪、网易、搜狐、腾讯 门户网站:又被称为链接页面,是通向某类综合性互联网信息资源并提供相关信息服务的应用系统。 发展前景: 虽然目录型检索工具在当今互联网信息检索界的地位已不如从前,但仍是一支不可忽视的力量。比如在2004年,百度公司收购hao123,hao123是一个个人维护的目录型检索工具,它成为了相当一部分上网用户的“入口”,许多对上网无从下手的人,最需要的就是这样的导航网站,如今360也开发了360网址。 3、基于索引型检索工具的互联网信息检索 随着互联网信息量的急剧增加,仅以“网站”为信息基本单元的检索方式已经不能满足更精细的检索需求,于是基于“页面”为信息基本单元的检索方式成为主流。 最具代表性的索引型网络检索工具就是搜索引擎 搜索引擎原理 利用一个成为Robot的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,并将搜集到的网页加入到搜索引擎的数据库中,并建立索引,供用户检索使用。然后用户输入关键字之后进行检索。 优点 充分利用了计算机的处理能力,对于规模巨大的互联网信息资源的索引和检索具有强大的优势,使得人们可以用更少的时间检索到更广阔的互联网信息。 缺点 1.检索噪音问题。使用搜索引擎检索某个关键词或关键词组合,通常会返回大量检索结果,逐一浏览这些结果对用户来说是不现实的。搜索引擎不断改进算法,使得最满足检索需求的结果排序靠前,取得了一定的效果,但是仍不能完全令人满意。 2、索引非文件形式的互联网信息资源的能力有限,为了保证Robot抓取网页的效率,让其不至于迷失在无尽的链接中无法返回,通常Robot在漫游各个网站时会受到目录深度的限制,较大搜索引擎的robot一般也就能顺链到一个网站的4-5层页面而已。 4、其他互联网检索工具 ①元搜索引擎。它弥补了搜索引擎的不足,他不存在Robot,也不存在存放网页的数据库,当用户检索一个关键词时,它把用户的检索请求转换成其他搜索引擎所能接受的命令格式,并发
您可能关注的文档
- 第二章 聚落地理学的若干问题综述.ppt
- 第二章 决策与决策方法综述.ppt
- 第二章 课程方案综述.ppt
- 第二章 劳动法综述.ppt
- 第二章 旅游公共关系学综述.ppt
- 第二章 旅游公共关系综述.ppt
- 第二章 旅游管理信息系统开发与应用基础综述.ppt
- 第二章 旅游文本的翻译策略总论综述.ppt
- 第二章 贸易术语与国际贸易惯例综述.ppt
- 第二章 煤矿井下电气作业的职业特殊性及习题综述.ppt
- 2025年储能电池热管理技术创新在海洋能源中的应用分析报告.docx
- 2025年新能源光伏发电系统成本控制与效益分析报告.docx
- 2025年生物质能利用技术进展与产业发展报告.docx
- 2025年地热能发电技术装备国产化进程与政策支持报告.docx
- 2025年锂电池负极材料碳包覆技术在便携式电源中的应用.docx
- 中国轨道交通装备产业链优化及2025年发展动态报告.docx
- 5G赋能下的VR远程手术:2025年技术创新与临床应用探索.docx
- 新能源客户体验创新:2025年技术突破与市场竞争力报告.docx
- 电商直播行业2025合规风险评估与直播带货市场潜力报告.docx
- 电商知识产权保护与电商平台知识产权保护技术标准制定报告.docx
文档评论(0)