第三讲网络信息的组织与管理.pptVIP

  • 3
  • 0
  • 约3.35千字
  • 约 39页
  • 2017-09-06 发布于重庆
  • 举报
第二讲 网络信息的组织与管理 兼谈搜索引擎的发展趋势 本讲内容大纲 网络信息的特点 搜索引擎对网络信息的组织与管理 搜索引擎的未来发展趋势 网络信息与传统信息的差异 信息的产生——增长迅速,数量巨大, 发布自由,来源广泛 信息的传播——存储数字化,传播网络化 信息的结构——内容丰富,形式多样,种类繁多 信息的使用——流通性广,时效性强,不稳定性 搜索引擎对网络信息的分类与管理 第一代搜索引擎的探索 — 目录搜索 典型代表:Yahoo 搜索引擎对网络信息的分类与管理 目录搜索分类体系的特点 以主题为中心或主题与学科结合两种分类方式(图1) 优点:不仅直观,而且包容性强 特点:突出热点,与日常生活相关 弱化学科专业性 搜索引擎对网络信息的分类与管理 目录搜索分类体系的缺点 1、这个分类体系是由文献的管理者人为的给出来的,用户并不一定清楚,或者说普通用户并不一定理解,这样就有可能找不到想要的信息 。 2、手工分类的成本太大、效率太低,不能适应快速增长的网上信息资源管理的需要。 搜索引擎对网络信息的分类与管理 第二代搜索引擎技术 — 关键词表 第二代搜索引擎在看到了第一代搜索引擎的弊端后,创新性地提出了页面重要性分析技术pageranking技术和超链分析技术等,将最重要的页面优先呈现给用户。 关键词分类方法的优点 Google并不对文献进行分类,而是从文献中识别出“关键字”来,然后建立倒排索引。也就是说文献是用一组关键字列表来表示的,这就是网络资源的数据模型。 这种分类管理的优点在于: 计算机可以自动地完成,无需人工干预,这使得大规模的搜索成为可能。 用户不需要额外的负担,只需要敲入适当的关键字就可以了。用户获得了前所未有的信息体验。 缺点同时并存。。。 在这里“关键字”仅仅是出现在网页中的符号而已,它所指代的语义并没有被使用。页面分析所依据的也是存在于页面之间的链接关系,它不能表示这些页面本身包含什么信息。这就决定了搜索引擎还不能还好地处理页面信息的语义,因此,目前搜索引擎出现了一系列的困难。。。 重复信息太多,有用信息太少。。。 搜索引擎未来的发展趋势 信息搜索的多维化 搜索引擎正逐步扩展搜索信息的维度以满足用户日益扩张的搜索欲望,维度扩展体现在信息的载体、类型、传播方式等方面的扩展,以下是一些常见的信息维度: 信息的格式:web页、图片、PDF文档、MS Office文档、Flash、Mp3等。 信息的类型:资讯、图书、地图、学术、大学、博客等。 信息的传播方式:计算机、手机、PDA等。 搜索引擎未来的发展趋势 搜索引擎的“智能化” 搜索引擎对自然语言的学习能力更为强大,从语言学的角度,分析用户关键词的语境、个人搜索喜好等因素,将更准确的信息提供给用户。 自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。 搜索引擎未来的发展趋势 搜索引擎未来的发展趋势 更专业化的垂直主题搜索引擎 网络信息的浩如烟海 综合性搜引的力不从心 检索结果的筛选耗时耗力 垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻、旅游等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。 更专业化的垂直主题搜索引擎 典型:去哪儿(/) “去哪儿”旅游信息搜引示例 搜索引擎未来的发展趋势 注重“人”的优点,P2P形式? 第三代搜索引擎的“社会性” peer to peer(点对点) 用“人”的力量弥补技术的不足 初级探索:百度知道 雅虎知识堂 搜索引擎未来的发展趋势 注重“人”的优点,P2P形式? 现在与未来?问答型社交站点的兴起 Quora:/ 知乎:/ 搜索引擎未来的发展趋势 对深层信息的挖掘 所谓深层搜索是指搜索那些放在数据库中的信息。目前的搜索引擎主要处理普通的网页(称为浅层网页),对于深层网页的信息难以搜索,而据说这样的信息是普通网页的500倍。显然,如何能够将搜索引擎的触角深入到数据库里去,是下一代搜索引擎所关心的。 深层信息的挖掘的尝试 常用学术搜索引擎介绍 Google Scholar介绍 11个常用学术搜引推荐: /s/blog_5c019b410100egjq.html 一、人文社科资源的检索利用 学术型搜索引擎的利用 Google学术搜索: http://S http://S 是Google于2004年11月推出的用来专门搜索学术文章的搜索引擎,涉及多个领域,其中包括人文社科资源。它

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档