第二讲(四)_搜索引擎发展趋势 情报分析技术 知识课件.pptxVIP

第二讲(四)_搜索引擎发展趋势 情报分析技术 知识课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二讲(四)_搜索引擎发展趋势 情报分析技术 知识课件.pptx

化柏林 010huabolin@ 中国科学技术信息研究所 报告提纲 1 2 3 4 中国科技信息研究所 化柏林 第一代搜索引擎 以主题分类为主要特征 人工采编,搜索范围较窄,准确度较高。 索引一般少于100万个网页,极少重新搜集网页并去更新索引。 检索速度非常慢,一般都要等待10s,甚至更长的时间。 在实现技术上也基本沿用较为成熟的信息检索、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。 以Yahoo、搜狐等为代表。现在的使用也越来越少。 中国科技信息研究所 化柏林 第二代搜索引擎 目前的搜索引擎以网页自动爬行、网页全文标引为技术特征, 在自动爬行过程主要利用超链接进行爬行,在标引时主要用到词语的切分技术。 分为三大部分功能:网页爬行、分析标引和用户查询 响应查询 中国科技信息研究所 化柏林 功能:用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果按一定策略排序返回给用户, 构成:由查询器和网页级别评定器 核心:检索表达式解析与检索结果的排序 二代搜索引擎的爬行 中国科技信息研究所 化柏林 二代搜索引擎的URL是直接从html文件中析取出来的,是字符级匹配的过程。 搜索引擎只能对html文本中提供的URL进行下一页的爬行,而不能对动态生成的URL进行爬行。 二代搜索引擎搜索的主要是静态URL,尽管能对形如*.asp的网页进行爬行,但对真正的动态网页搜索能力很差。 特别是对通过URL传递用户输入参数的网页几乎没有能力。 三代搜索引擎的爬行 中国科技信息研究所 化柏林 三代搜索引擎能够爬行以数据记录为内容的网页。 对于不同页面间的参数传递常用的有两种方法, 第一种是直接写在URL中,在文件后缀名后加问号,用等号把参数名与相应的值连起来,不同参数间用逗号隔开。 另外一种方式是通过对话Session设定参数,如JSP里的setParameter()和getParameter(),。 根据用户输入查询条件,以数据记录的形式从数据库里取出来,生成网页的, 数据量更大、更专业、更新速度快、价值也高。 能够参照html文件中析取出的URL构造新的URL并下载。 这种URL的构造具有尝试性,能够学习,三代搜索引擎应该能够搜索网上公开的、免费的、非注册的动态网页。 三代搜索引擎的爬行 中国科技信息研究所 化柏林 四代搜索引擎的爬行 中国科技信息研究所 化柏林 四代搜索引擎在爬行过程中还多了一个自动注册机。 网上有许多数据库是免费的,但是只有注册用户才能够使用,搜索引擎应该能够根据注册需求自动注册,完成注册过程成为系统用户,然后像三代搜索引擎一样再去下载数据库里的内容。 这样爬行范围就更加广泛,获取数据机制与以往有很大改进。 本来由人来完成的过程,可由计算机来完成。 五代搜索引擎的爬行 中国科技信息研究所 化柏林 五代搜索引擎能够对私有数据进行搜索,当然异构数据的查询也早就实现了。这种异构是真正的开放的异构。 五代搜索引擎不仅要解决的是跨库搜索的技术问题,问题的关键在于数据库商的合作,这更多的是经济与社会问题。 如搜索引擎与数字图书馆、各种数据库商的合作会使搜索引擎的搜索范围,数据质量有极大的提升。 分析处理 中国科技信息研究所 化柏林 从语言单位来看,文本分析主要有词法分析、句法分析、语段分析、篇章分析等,反映的是不同的信息粒度; 从分析的层面来看,又分为形态分析、语法分析、语义分析、语用分析等,反映的是不同的分析深度。 分析要素 中国科技信息研究所 化柏林 对于图形图像,分析要素有颜色、纹理、形状。 对于音频, 形态上有采样频率、每个采样的位数、声道数等, 从结构上来讲有基音、音强、音色,对于曲子,还有节拍、音符和乐器, 对于歌曲,还有美声、通俗,还有低中高音再加上男女声之分等, 对于视频分析,可以从视频帧、视频镜头、视频场景、视频幕等要素进行分析。 二代搜索引擎的分析 中国科技信息研究所 化柏林 二代搜索引擎主要利用分词技术,词根词干分析技术,词语同现及频率分布。 对于屈折语,词法分析主要是词的构成,通常有前缀+词根+后缀+词尾,切分非常容易,一般是空格自然分开,还有少量的标点符号进行分隔标记。 对于分析型语言,切分便是最大的问题,拿中文来讲,一般有三类切分方法。自然切分、向量切分和概率切分。 二代搜索引擎的分词 中国科技信息研究所 化柏林 分类:一元法、二元法或三元法等。 优点:算法简单,不需要任何词典,纯机械切分, 缺点:切分结果冗余较多,检索速度随着检索表达式的增长而变慢。 应用:适于不是基于数据库而基于文件的一些小型系统,网络上许多支持全文检索的小词典多使用这种切分方法。 向量切分法按长度分为最大与最小,按分向又分为正向、逆向

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档