- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二讲(四)_搜索引擎发展趋势 情报分析技术 知识课件.pptx
化柏林
010huabolin@
中国科学技术信息研究所
报告提纲
1
2
3
4
中国科技信息研究所 化柏林
第一代搜索引擎
以主题分类为主要特征
人工采编,搜索范围较窄,准确度较高。
索引一般少于100万个网页,极少重新搜集网页并去更新索引。
检索速度非常慢,一般都要等待10s,甚至更长的时间。
在实现技术上也基本沿用较为成熟的信息检索、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。
以Yahoo、搜狐等为代表。现在的使用也越来越少。
中国科技信息研究所 化柏林
第二代搜索引擎
目前的搜索引擎以网页自动爬行、网页全文标引为技术特征,
在自动爬行过程主要利用超链接进行爬行,在标引时主要用到词语的切分技术。
分为三大部分功能:网页爬行、分析标引和用户查询
响应查询
中国科技信息研究所 化柏林
功能:用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果按一定策略排序返回给用户,
构成:由查询器和网页级别评定器
核心:检索表达式解析与检索结果的排序
二代搜索引擎的爬行
中国科技信息研究所 化柏林
二代搜索引擎的URL是直接从html文件中析取出来的,是字符级匹配的过程。
搜索引擎只能对html文本中提供的URL进行下一页的爬行,而不能对动态生成的URL进行爬行。
二代搜索引擎搜索的主要是静态URL,尽管能对形如*.asp的网页进行爬行,但对真正的动态网页搜索能力很差。
特别是对通过URL传递用户输入参数的网页几乎没有能力。
三代搜索引擎的爬行
中国科技信息研究所 化柏林
三代搜索引擎能够爬行以数据记录为内容的网页。
对于不同页面间的参数传递常用的有两种方法,
第一种是直接写在URL中,在文件后缀名后加问号,用等号把参数名与相应的值连起来,不同参数间用逗号隔开。
另外一种方式是通过对话Session设定参数,如JSP里的setParameter()和getParameter(),。
根据用户输入查询条件,以数据记录的形式从数据库里取出来,生成网页的,
数据量更大、更专业、更新速度快、价值也高。
能够参照html文件中析取出的URL构造新的URL并下载。
这种URL的构造具有尝试性,能够学习,三代搜索引擎应该能够搜索网上公开的、免费的、非注册的动态网页。
三代搜索引擎的爬行
中国科技信息研究所 化柏林
四代搜索引擎的爬行
中国科技信息研究所 化柏林
四代搜索引擎在爬行过程中还多了一个自动注册机。
网上有许多数据库是免费的,但是只有注册用户才能够使用,搜索引擎应该能够根据注册需求自动注册,完成注册过程成为系统用户,然后像三代搜索引擎一样再去下载数据库里的内容。
这样爬行范围就更加广泛,获取数据机制与以往有很大改进。
本来由人来完成的过程,可由计算机来完成。
五代搜索引擎的爬行
中国科技信息研究所 化柏林
五代搜索引擎能够对私有数据进行搜索,当然异构数据的查询也早就实现了。这种异构是真正的开放的异构。
五代搜索引擎不仅要解决的是跨库搜索的技术问题,问题的关键在于数据库商的合作,这更多的是经济与社会问题。
如搜索引擎与数字图书馆、各种数据库商的合作会使搜索引擎的搜索范围,数据质量有极大的提升。
分析处理
中国科技信息研究所 化柏林
从语言单位来看,文本分析主要有词法分析、句法分析、语段分析、篇章分析等,反映的是不同的信息粒度;
从分析的层面来看,又分为形态分析、语法分析、语义分析、语用分析等,反映的是不同的分析深度。
分析要素
中国科技信息研究所 化柏林
对于图形图像,分析要素有颜色、纹理、形状。
对于音频,
形态上有采样频率、每个采样的位数、声道数等,
从结构上来讲有基音、音强、音色,对于曲子,还有节拍、音符和乐器,
对于歌曲,还有美声、通俗,还有低中高音再加上男女声之分等,
对于视频分析,可以从视频帧、视频镜头、视频场景、视频幕等要素进行分析。
二代搜索引擎的分析
中国科技信息研究所 化柏林
二代搜索引擎主要利用分词技术,词根词干分析技术,词语同现及频率分布。
对于屈折语,词法分析主要是词的构成,通常有前缀+词根+后缀+词尾,切分非常容易,一般是空格自然分开,还有少量的标点符号进行分隔标记。
对于分析型语言,切分便是最大的问题,拿中文来讲,一般有三类切分方法。自然切分、向量切分和概率切分。
二代搜索引擎的分词
中国科技信息研究所 化柏林
分类:一元法、二元法或三元法等。
优点:算法简单,不需要任何词典,纯机械切分,
缺点:切分结果冗余较多,检索速度随着检索表达式的增长而变慢。
应用:适于不是基于数据库而基于文件的一些小型系统,网络上许多支持全文检索的小词典多使用这种切分方法。
向量切分法按长度分为最大与最小,按分向又分为正向、逆向
文档评论(0)