分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine.docxVIP

分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine

第1章绪论1.1论文研究背景随着计算机网络技术的迅猛发展以及无纸化办公的逐步推广,搜索引擎需要存储和处理的信息量正在以几何级数高速增长,与此同时,习惯使用搜索引擎进行信息检索的用户也越来越多,现代搜索引擎技术正面临着多方位挑战。从用户体验的角度来看,优秀的搜索引擎至少应该满足两个指标:一是低响应时间,即如何快速地在所有资源中找到用户所需要的信息;二是高吞吐率,即能够同时处理大量用户的并发查询请求。集中式信息检索系统由于自身资源有限,在容错率和可扩展性上存在天然障碍,无法有效满足海量数据处理和大规模并发查询的应用需求。解决上述问题的一个有效方案是通过网络链接构建一个由多台PC服务器组成的分布式计算环境,以较低的成本提供高性能计算能力,此类分布式架构的容错能力和可扩展性都比较好,尤其适用于信息检索领域[1]。本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分巨大,需要使用分布式搜索引擎才能满足日常搜索需要,而且他们对文档的安全性和访问控制均有较高要求,希望在满足日常搜索需求的同时可以兼顾索引安全和访问控制,尽量减少不必要的信息外泄。本课题主要研究内容为分布式搜索引擎的索引安全和缓存策略,是“分布式密文全文检索系统”的两个核心组成部分,前者保证了索引文件的安全性,后者提高了系统的吞吐率和响应时间。1.2国内外研究现状1.2.1搜索引擎安全检索技术国外的研究主要集中在分布式文件系统中的加密文本检索问题。针对加密文本进行数据检索的主要技术是通过文本中的关键词建立安全索引,从而实现快速查询技术。加利福利亚大学的DawnXiaoSong等学者使用流加密(StreamCipher)方式对文本内的数据进行流式加密处理[2],无需解密就可以直接对加密文本进行关键字匹配搜索。这项技术是在并不信任的服务器上进行远程搜索加密数据,同时提供安全性的证据。流加密技术具有以下优点:1、可以证明的安全性;2、支持受控、隐藏查询和查询隔离(QueryIsolation)功能;3、查询速度快(对长度为n的文档,加密和查询算法为O(n)级的序列加密);4、可以忽略不计的空间和交互开销;5、可扩展支持更多高级查询功能。流加密技术也有其弱点:1、这种加密方法不能全面兼容当前已知的所有文件加密方案,而是需要使用某种特定的加密方法;2、不支持对压缩后的数据进行搜索,无法用于存放压缩数据的远程服务器;3、无法有效抵御针对加密数据的统计攻击,可能泄漏关键词在文档中的位置信息。尽管作者已经提出了一些有价值的补救方法,但是这种流加密技术至少在理论上存在被破解的可能性。哈佛大学的Yan-ChengChang和MichaelMitzenmacher同样提出了一种在远程服务器上检索加密数据的方法[3],主要服务于处理能力有限的手持设备(如PDA),由于此类设备硬件资源有限,且主要通过无线信号与外界进行通讯,因此服务器无法将加密后的数据文件全部发送到客户端进行处理。基于以上原因,作者们提出了建立关键词索引的想法,由关键词索引将关键词与其相关联的文件联系在一起。关键词索引是用户在离线时间使用更强大的家用PC机创建的,用户手头的移动设备通过关键词索引实现对远程文件的查询操作。用户发起的所有查询都是基于关键词索引,因此这种方案不是一般意义上的全文检索。作者们认为关键词索引可以满足大多数用户的日常查询需求,并且用户可以根据个人喜好设置选择关键词与文件进行关联。这种技术的核心是在用户为每个文件建立关键词索引后添加k位伪随机信息作为索引的掩码,服务器可以利用这种短的种子信息获得索引的相关部分,同时保持索引的其它部分仍然是伪随机状态。该技术没有用到任何密钥和加密算法,只需要使用伪随机函数即可。作者也意识到他们的方案仍然存在一些问题:一是无法支持多关键词的布尔查询;二是无法支持全文检索;三是这种基于词频的查询会大大增加服务器端的资源消耗;四是所有类似方案都没有解决删除操作带来的安全更新问题。中国科学院计算机网络信息中心的李新在2005年提出了基于PKI体系和IDEA分组加密算法的密文检索方法,用于数据库加密[4]。该方法对加密算法和加密过程进行部分改造,并且把日期和数字按照预先设定的规则转化为字符,以保证相同明文在加密后能够得到相同的密文,从而可以利用全文检索相关技术对密态数据进行检索。根据我们了解的信息,国内外正在研究的密文检索技术大部分基于密文关键字索引,而不是真正的密文全文索引,因此研究用于密文全文检索的安全索引结构无论从科研还是实用角度,都是十分有意义的。1.2.2搜索引擎缓存技术到目前为止,已经有很多学者对用户的搜索行为进行了跟踪和研究[5,6],从中得出了一些非常有价值的结论:在所有

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档