第二讲(四)_搜索引擎发展趋势情报分析技术知识课件.pptxVIP

下载本文档

5
0
约6.91千字
约 48页
2018-06-13 发布于天津
举报
版权申诉

第二讲(四)_搜索引擎发展趋势情报分析技术知识课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二讲(四)_搜索引擎发展趋势情报分析技术知识课件.pptx

化柏林 010huabolin@ 中国科学技术信息研究所报告提纲 1 2 3 4 中国科技信息研究所化柏林第一代搜索引擎以主题分类为主要特征人工采编，搜索范围较窄，准确度较高。索引一般少于100万个网页，极少重新搜集网页并去更新索引。检索速度非常慢，一般都要等待10s，甚至更长的时间。在实现技术上也基本沿用较为成熟的信息检索、网络、数据库等技术，相当于利用一些已有技术实现的一个WWW上的应用。以Yahoo、搜狐等为代表。现在的使用也越来越少。中国科技信息研究所化柏林第二代搜索引擎目前的搜索引擎以网页自动爬行、网页全文标引为技术特征，在自动爬行过程主要利用超链接进行爬行，在标引时主要用到词语的切分技术。分为三大部分功能：网页爬行、分析标引和用户查询响应查询中国科技信息研究所化柏林功能：用户查询主要负责分析用户输入的检索表达式，匹配相关文档，把检索结果按一定策略排序返回给用户，构成：由查询器和网页级别评定器核心：检索表达式解析与检索结果的排序二代搜索引擎的爬行中国科技信息研究所化柏林二代搜索引擎的URL是直接从html文件中析取出来的，是字符级匹配的过程。搜索引擎只能对html文本中提供的URL进行下一页的爬行，而不能对动态生成的URL进行爬行。二代搜索引擎搜索的主要是静态URL，尽管能对形如*.asp的网页进行爬行，但对真正的动态网页搜索能力很差。特别是对通过URL传递用户输入参数的网页几乎没有能力。三代搜索引擎的爬行中国科技信息研究所化柏林三代搜索引擎能够爬行以数据记录为内容的网页。对于不同页面间的参数传递常用的有两种方法，第一种是直接写在URL中，在文件后缀名后加问号，用等号把参数名与相应的值连起来，不同参数间用逗号隔开。另外一种方式是通过对话Session设定参数，如JSP里的setParameter()和getParameter()，。根据用户输入查询条件，以数据记录的形式从数据库里取出来，生成网页的，数据量更大、更专业、更新速度快、价值也高。能够参照html文件中析取出的URL构造新的URL并下载。这种URL的构造具有尝试性，能够学习，三代搜索引擎应该能够搜索网上公开的、免费的、非注册的动态网页。三代搜索引擎的爬行中国科技信息研究所化柏林四代搜索引擎的爬行中国科技信息研究所化柏林四代搜索引擎在爬行过程中还多了一个自动注册机。网上有许多数据库是免费的，但是只有注册用户才能够使用，搜索引擎应该能够根据注册需求自动注册，完成注册过程成为系统用户，然后像三代搜索引擎一样再去下载数据库里的内容。这样爬行范围就更加广泛，获取数据机制与以往有很大改进。本来由人来完成的过程，可由计算机来完成。五代搜索引擎的爬行中国科技信息研究所化柏林五代搜索引擎能够对私有数据进行搜索，当然异构数据的查询也早就实现了。这种异构是真正的开放的异构。五代搜索引擎不仅要解决的是跨库搜索的技术问题，问题的关键在于数据库商的合作，这更多的是经济与社会问题。如搜索引擎与数字图书馆、各种数据库商的合作会使搜索引擎的搜索范围，数据质量有极大的提升。分析处理中国科技信息研究所化柏林从语言单位来看，文本分析主要有词法分析、句法分析、语段分析、篇章分析等，反映的是不同的信息粒度；从分析的层面来看，又分为形态分析、语法分析、语义分析、语用分析等，反映的是不同的分析深度。分析要素中国科技信息研究所化柏林对于图形图像，分析要素有颜色、纹理、形状。对于音频，形态上有采样频率、每个采样的位数、声道数等，从结构上来讲有基音、音强、音色，对于曲子，还有节拍、音符和乐器，对于歌曲，还有美声、通俗，还有低中高音再加上男女声之分等，对于视频分析，可以从视频帧、视频镜头、视频场景、视频幕等要素进行分析。二代搜索引擎的分析中国科技信息研究所化柏林二代搜索引擎主要利用分词技术，词根词干分析技术，词语同现及频率分布。对于屈折语，词法分析主要是词的构成，通常有前缀+词根+后缀+词尾，切分非常容易，一般是空格自然分开，还有少量的标点符号进行分隔标记。对于分析型语言，切分便是最大的问题，拿中文来讲，一般有三类切分方法。自然切分、向量切分和概率切分。二代搜索引擎的分词中国科技信息研究所化柏林分类：一元法、二元法或三元法等。优点：算法简单，不需要任何词典，纯机械切分，缺点：切分结果冗余较多，检索速度随着检索表达式的增长而变慢。应用：适于不是基于数据库而基于文件的一些小型系统，网络上许多支持全文检索的小词典多使用这种切分方法。向量切分法按长度分为最大与最小，按分向又分为正向、逆向

您可能关注的文档

文档评论（0）

youngyu0329 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第二讲(四)_搜索引擎发展趋势 情报分析技术 知识课件.pptxVIP