国外搜索引擎智能技术进展20032004.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国外搜索引擎智能技术进展(2003—2004) 王雅戈 本文是对国外几项搜索引擎智能技术研究动态的简单介绍,主要介绍了可视化数据记录 抽取、用户浏览突发语义学研究、性能自动评估、查询结果缓存、多代理动态在线信息蓰掘技 术、软计算、提问日志上下文信息分析、聚类检索查询处理效率等方面的研究动态,以为相关研 究提供信息线索。 如今,搜索引擎已经成为最重要的网络工具之一,是它把用户和网上的信息连接到了一 起。当网络信息不断更新并渗透到人们生活的各个方面的时候,人们对开发更具智能化的搜 索引擎的需要也在不断增大。国外有关智能搜索引擎的研究动态,对我国开展此项研究也会 有一定的帮助。本文对国外有关智能搜索引擎技术研究动态进行简单介绍,以期引起有关研 究者的关注。 1 可视化网上数据抽取技术研究 可视化网上数据抽取技术,是下一代搜索引擎的重要方法之一。”1确切地说,就是开发一 种网络检索工具,它能使表面网(su五aceWeb)或外网的信息抽取和深层网(deepweb)或内网 的信息检索过程更加便利地实现。创建一种新协议,使数据挖掘的深层网结构能一站式地检 索多个网上在线数据库。当前大多数网络检索都是基于文献层的等级排序和检索的思想,数 据抽取的检索理念是基于对象层的网络检索,其目标是为任一提问自动找出副主题(或分类) 并将检出文献自动进行实义组织。它能提供目标层的等级排序、趋势分析和商业情报等,诸如 人物、论文、会议和兴趣小组等。 在一些领域新出现了垂直检索,如移动搜索和媒体检索等。垂直检索具有很高的针对J眭, 将各主题都做得精确而又专业,检索结果中噪音小,比如像股票、天气、新闻等类信息的检索, 用户对查询结果的满意度较高,有着极大的发展空间。 为这些新的检索安装驱动程序,如基于定位的和基于上下文的检索在移动检索中将具有 越来越重要的作用。从物理检索到数字化检索,不会像桌面检索那样对移动因特网有太大的 潜在影响。就多媒体检索而言,需要分析媒体和文本、超级链接、深层网结构以及用户相互关 系等有关内容,使系统更好地理解媒体目标。数据挖掘、机器学习和知识发现等技术在信息分 析、组织、检索和可视化等方面的应用,将会极大地提高下一代搜索引擎的性能。 2用户浏览突发语义学研究㈨ 网页作者有时并不能完全确定网页的语义以及网页在使用过程中出现的语义,不知道其 网页内容被使用的方式,网上发布的一些信息有可能被用于邪恶的目的。 这种方法的核心思想是从用户使用网页的顺序得到其语义。通过反复观察,就可以发现 性。用户浏览网页过程中产生的语义,也可以被看作是搜索引擎的逆向研究(the of reciprocal search engines)。 运用潜语义分析可以得出用户浏览模式的语义,通过进一步训练,这种搜索引擎可以被用 于恐怖者的语义趋势分析。比如某个提问者的提问式中经常有关于炸药类的语词,并且经常 浏览一些有关爆炸技术的网站,再关注某个城市或某个重要目标的话,搜索引擎就可以分析出 提问者有可能对某个目标进行爆炸一类的恐怖袭击活动。 3搜索引擎性能自动评估技术研究‘31 测试搜索引擎的信息检索效率是很昂贵的,因为它与人的恰当的判断有关。但是,对于企 业和个人来说,了解最有效的搜索引擎却很重要,因为这可以帮助他们以较少的工作量找到更 多相关的网页。因此,研究搜索引擎性能的自动评估是很有意义的。以实践为目的进行搜索 引擎的自动性能评估,研究有效的评估方法,建立有效的评估指标,制作有效的系统评估工具, 开展相关的模拟实验,并与基于人工的评估方法相结合,都是搜索引擎性能自动评估系统的重 要方面。 随机模拟方法”。已经在许多领域得到了应用,但是在网络搜索引擎中的应用才刚刚开 始。搜索引擎的质量评价不仅应包括检索到的网页集合,还应包括被拒绝的网页。它是基于 随机模拟的元数据模型开发的,研究的是每一个查询提问被拒绝的网页数。 该研究的模拟系统使用了9个输入变量,分别是精确性、重叠度、响应时间、覆盖率、更新 频率、布尔逻辑、截词、单词和多单词检索以及部分网页排序等,利用了随机模拟元数据,测试 了9个训练数据或模板文集。它将每一个提问的响应结果集合划分成被接受的和被拒绝的网 页两

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档