基于语义技术搜索引擎平台搭建可行性研究.docVIP

基于语义技术搜索引擎平台搭建可行性研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义技术搜索引擎平台搭建可行性研究

基于语义技术搜索引擎平台搭建可行性研究   [摘要]首先分析了目前主流搜索引擎存在的问题,然后对国内外将语义技术应用到搜索引擎中的现状进行了分析,最后具体分析了将语义技术应用到存储技术、检索技术、数据库技术和分词算法的可行性。   [关键词]语义技术,搜索引擎,语义搜索引擎,搜索引擎技术   [中图分类号]G254.928 [文献标志码]A [文章编号]1006-6041(2011)06-0007-04   随着Internet的飞速发展,各种各样的信息资源在网络上发布,用户通过什么样的技术策略或者手段才能在这个信息的海洋中找到自己需要的信息成为专家学者研究的对象,于是基于分类目录和基于关键词技术的搜索工具应运而生,它们的出现给用户使用网络信息资源带来了很大的方便。但是由于计算机技术和知识的普及,致使网络信息资源爆炸式的增加,目前的检索工具出现了不能满足人们需要的情形。针对Intemet暴露出来的缺陷,1998年,Web的创始人Tim Bemers-Lee首次提出了“语义Web”(Semantic Web)的概念及其技术路线,阐述了语义Web的基本思想,语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理(Agent)对WWW上异构和分布信息的有效访问和检索。语义技术的核心就是:为万维网上发布的信息进行语义的标注,使机器可以理解这些数据的含义,最后实现智能推理和信息自动化的处理。因此关于将语义技术和搜索引擎技术相结合的智能化搜索引擎的研究已经迫在眉睫。   1 目前搜索引擎存在的问题   随着社会经济和计算机技术的发展,社会上的信息量剧增,为方便信息交流和获取,随之产生了搜索引擎,无论是目录式搜索,还是关键词搜索,都给用户使用网络来获取信息提供了巨大的方便,使得网络在人们的生活中显得越来越重要,网络信息也随之剧增。近几年,专家和企业都在研究搜索技术与搜索的策略,并且取得了很大的进步,但是这种进步在网络信息量的剧增面前显得很微小,这时,一些搜索引擎的弊端就逐渐地显现出来。   从目前用户的使用角度来看,搜索引擎有以下几点不足:1)随着网络技术的发展,一些网站建设的新技术应运而生,一些新的网站应用技术也在网络上流行,Flash导航,视频资源播放等新型技术的产生,直接对传统的搜索引擎带来挑战。2)网络上页面资源的更新速度大大加快,现在几乎每个公司都有自己的网站,并且几乎每天都有新的信息更新。同时,一些新型网络社区的建设,给很多用户提供了创建个人主页的机会,信息量增加的速度变快,大量的信息给搜索引擎的Crawler系统带来新的挑战。3)网络信息的异构性更加突出。由于网络技术的发展,可以发布网络信息的用户群发生了变化,以前都是以单位为主要的群体,转变成以个人为目标用户群的。这样发布的信息从格式上更加难以控制,并且结构类型也有不小的变化,从而增加了信息的异构性,这样对搜索引擎的标引技术提出了新的要求。4)动态生成技术,数据库技术的广泛应用,使网络上的很大一部分网站从静态转换成了动态。好多网站信息是由数据库代码自动生成了,这样对网络资源的真正URL以及资源的数据不好确认,给搜索程序带来不小的困难。5)由于信息量巨大以及部分网络信息描述的不准确,给检索带来不小的误差,这样用户输入关键词以后,搜索引擎检索出来的数据量很庞大,一些用户真正需要的数据不一定能够排在显示的前端,而用户也不会――的耐心看下去,这样产生的检索噪音给用户的使用带来很大的影响。   2 基于语义技术的搜索引擎平台研究现状   2.1 国外相关研究   相关理论主要有,NEC美国研究所的SteveLawrenee和C,Lee Giles从1998年和1999年起连续在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会议TREC也从1998年开始增加了Web Track课题,以考察Web文档与其他类型文档在检索性质上的不同之处,并将测试在大规模的Web库(如100G字节)上进行信息检索的算法性能。由美国Information公司主办的搜索引擎国际会议从1996年开始每年举行一次,对搜索引擎技术进行总结、讨论和展望,对搜索引擎技术起到了很好的推动作用。此外还有EIEE主办的国际万维网会议、人机交互会议等。然后就是在Bemers-Lee提出了语义网的设想,相关专家和学者开始将语义网思想运用到搜索引擎中,提高和优化搜索的性能。主要文献有2004年Boulos,Maged N,Kamel 的“A First Look at Health Cyber Map Medi-cal Semantic Subiect Search Engine”,D-Lib Maga-zine 的“ALVIS-Superpeer Semant

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档