基于xml的个性化搜索算法分析-analysis of personalized search algorithm based on xml.docxVIP

  • 2
  • 0
  • 约4.66万字
  • 约 52页
  • 2018-05-18 发布于上海
  • 举报

基于xml的个性化搜索算法分析-analysis of personalized search algorithm based on xml.docx

基于xml的个性化搜索算法分析-analysis of personalized search algorithm based on xml

第一章绪论§1-1研究背景及意义研究背景随着计算机网络技术的迅猛发展与Internet的广泛应用,网络已经成为人们获得所需信息的主要来源和重要手段之一,并且成为逐渐成为最重要的方式。目前网络上的信息资源主要有以下几个优点:1)内容广泛丰富,基本涉及了人类生活的各个领域,从科学研究、生活娱乐到工作,体育等几乎无所不包。例如Yahoo网站,其主页就是按字母排列的各个大主题,大主题又被分为更小的主题。又如虚拟图书馆,其分布式主题目录几乎包含了所有的学科范围,每一个使用的用户都可能从中查询到有价值的资料。此外网页上除了文字内容还有图片等多媒体文件;2)信息更新及时,绝大多数网站上的信息都会定期更新;3)查询方式简单,不需要专门的检索技巧。除了权限以外,一般用户可以通用的搜索引擎的帮助,获得网络上免费的信息资源;但是网络上的信息资源也有一定的缺点,例如信息重复率高,结构化程度低等。所以网络上“浩渺如烟”的信息在给人们带来方便的同时也带来了许多的问题。人们通常情况下都需要耗费大量宝贵的时间与精力在网络上去寻找自已所需要的信息,由于问题存在的普遍性,近年来Internet的个性化搜索服务引起人们越来越多的关注。虽然现在有些搜索引擎可以对搜索结果进行相关排序计算并且按得分的高低通过某些算法将处理后的搜索结果呈现给用户,但是由于没有考虑到用户个人的兴趣爱好等这些个性化信息,导致了不同的用户对于同样或者相似的搜索关键词搜索出的查询结果及其排列顺序是完全相同的,这样做显然并不能完全满足用户的需求[1],因此如何从网络中快速准确的搜索并呈现给用户其所需要的信息成为被关注的一个重要问题。与此同时,互联网上的信息格式多种多样,其中大部分网页是HTML(HyperTextMark-upLanguage)格式的,但是XML格式的文档的不断增多是一个主要的发展趋势,为什么会出现这样的现象?这主要是因为在XML(eXtensibleMarkupLanguage)发布之前,Internet的发展受到了很大的束缚,常用的HTML格式存在无法描述数据内容,对数据表现的描述能力不够等缺点,而这些内容恰好是进行信息搜索、电子商务等所必须要解决的问题,这样HTML 格式完全不能适应网络对新标记需求的发展需要。而这种情况下出现的XML,使得上述的问题都能够得到很好的解决。伴随着越来越多的Web数据开始采用XML语言进行描述、存储、交换和表现,基于XML的信息检索能力变得日益重要[2],同时对XML格式的数据使用也越来越依赖于Internet搜索引擎强大的检索能力。网络的个性化服务需求增大使得个性化服务技术得到了高速全面的发展。全球范围内大约有近亿个工作站,用户有着充分自由选择的空间,同时用户又具有着不同的背景、不同的兴趣和不同的使用目的等,这导致了Web的用户群体表现出了多样性的特点。层次的不同、爱好的不同,甚至是使用浏览器的不同都可能使得用户需要不一样的信息,更何况用户又同时有着不同兴趣和不同的偏好行为。因此实现个性化的信息查询是未来的搜索工具所必须具有的功能。而现在的通用搜索引擎针对这个问题存在着各种缺陷,出现这种困难的的原因有很多,例如搜索引擎缺乏知识处理能力和理解能力,HTML信息表示非结构化,信息抽取算法能力不足,对于进行搜索的信息仅仅采用机械性的关键词匹配来实现,信息的特征中没有包含语义信息,没有在结构和内容上进行融合,用户模型功能单一,同时缺少推送机制等。未来的信息检索系统要利用先进计算机技术改进用户模型并对各种算法进行优化,完善信息的推送机制,以实现个性化服务,这是解决问题的根本和关键,研究的关键集中在如何更有效满足用户个性化需求等方面[3]。研究意义网络的出现,尤其是搜索引擎的使用改变了人们信息检索的传统方式,搜索引擎逐渐成为人们得到所需信息的主要方式。近年来基于Web的个性化、智能化信息搜索研究正逐步展开,相信在不久的将来它能够改变并解决目前的搜索引擎存在的各种问题和矛盾,出现从信息到知识的搜索方式,有效提高信息搜索的效率。论文的研究意义也在于此。1)论文针对搜索引擎对所有用户相同或者相似的搜索条件呈现相同结果,未考虑用户个性化兴趣信息的问题,进行了个性化搜索引擎的研究;2)论文针对个性化搜索关键技术中用户兴趣模型的更新与搜索结果相关排序算法进行了研究,为提高搜索引擎的效率提供了一种新的解决思路;3)论文在对搜索算法性能的考虑中,在查全率保持现有水平的情况下,优先保证查准率的提高,为搜索引擎的性能评价提出了一种新的想法;4)论文在搜索结果排序时使用相关分析技术,对于网络信息的表示以及对信息搜索的优化和效率提高有着一定的意义。§1-2搜索引擎的发展阶段与趋势搜索引擎是一种联机信息检索系统,主要为人们提供了在网络上搜索信息的途径,同时它也是一种在网络上应用的软

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档