分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式搜索引擎索引安全及缓存策略分析-analysis of index security and cache policy of distributed search engine
第1章绪论1.1论文研究背景随着计算机网络技术的迅猛发展以及无纸化办公的逐步推广,搜索引擎需要存储和处理的信息量正在以几何级数高速增长,与此同时,习惯使用搜索引擎进行信息检索的用户也越来越多,现代搜索引擎技术正面临着多方位挑战。从用户体验的角度来看,优秀的搜索引擎至少应该满足两个指标:一是低响应时间,即如何快速地在所有资源中找到用户所需要的信息;二是高吞吐率,即能够同时处理大量用户的并发查询请求。集中式信息检索系统由于自身资源有限,在容错率和可扩展性上存在天然障碍,无法有效满足海量数据处理和大规模并发查询的应用需求。解决上述问题的一个有效方案是通过网络链接构建一个由多台PC服务器组成的分布式计算环境,以较低的成本提供高性能计算能力,此类分布式架构的容错能力和可扩展性都比较好,尤其适用于信息检索领域[1]。本课题所依托的国家863项目“分布式密文全文检索系统关键技术研究”的主要应用场景是具有较高文档保密需求的政府机关和大中型企业。这些机构的文档保有规模和用户数量十分巨大,需要使用分布式搜索引擎才能满足日常搜索需要,而且他们对文档的安全性和访问控制均有较高要求,希望在满足日常搜索需求的同时可以兼顾索引安全和访问控制,尽量减少不必要的信息外泄。本课题主要研究内容为分布式搜索引擎的索引安全和缓存策略,是“分布式密文全文检索系统”的两个核心组成部分,前者保证了索引文件的安全性,后者提高了系统的吞吐率和响应时间。1.2国内外研究现状1.2.1搜索引擎安全检索技术国外的研究主要集中在分布式文件系统中的加密文本检索问题。针对加密文本进行数据检索的主要技术是通过文本中的关键词建立安全索引,从而实现快速查询技术。加利福利亚大学的DawnXiaoSong等学者使用流加密(StreamCipher)方式对文本内的数据进行流式加密处理[2],无需解密就可以直接对加密文本进行关键字匹配搜索。这项技术是在并不信任的服务器上进行远程搜索加密数据,同时提供安全性的证据。流加密技术具有以下优点:1、可以证明的安全性;2、支持受控、隐藏查询和查询隔离(QueryIsolation)功能;3、查询速度快(对长度为n的文档,加密和查询算法为O(n)级的序列加密);4、可以忽略不计的空间和交互开销;5、可扩展支持更多高级查询功能。流加密技术也有其弱点:1、这种加密方法不能全面兼容当前已知的所有文件加密方案,而是需要使用某种特定的加密方法;2、不支持对压缩后的数据进行搜索,无法用于存放压缩数据的远程服务器;3、无法有效抵御针对加密数据的统计攻击,可能泄漏关键词在文档中的位置信息。尽管作者已经提出了一些有价值的补救方法,但是这种流加密技术至少在理论上存在被破解的可能性。哈佛大学的Yan-ChengChang和MichaelMitzenmacher同样提出了一种在远程服务器上检索加密数据的方法[3],主要服务于处理能力有限的手持设备(如PDA),由于此类设备硬件资源有限,且主要通过无线信号与外界进行通讯,因此服务器无法将加密后的数据文件全部发送到客户端进行处理。基于以上原因,作者们提出了建立关键词索引的想法,由关键词索引将关键词与其相关联的文件联系在一起。关键词索引是用户在离线时间使用更强大的家用PC机创建的,用户手头的移动设备通过关键词索引实现对远程文件的查询操作。用户发起的所有查询都是基于关键词索引,因此这种方案不是一般意义上的全文检索。作者们认为关键词索引可以满足大多数用户的日常查询需求,并且用户可以根据个人喜好设置选择关键词与文件进行关联。这种技术的核心是在用户为每个文件建立关键词索引后添加k位伪随机信息作为索引的掩码,服务器可以利用这种短的种子信息获得索引的相关部分,同时保持索引的其它部分仍然是伪随机状态。该技术没有用到任何密钥和加密算法,只需要使用伪随机函数即可。作者也意识到他们的方案仍然存在一些问题:一是无法支持多关键词的布尔查询;二是无法支持全文检索;三是这种基于词频的查询会大大增加服务器端的资源消耗;四是所有类似方案都没有解决删除操作带来的安全更新问题。中国科学院计算机网络信息中心的李新在2005年提出了基于PKI体系和IDEA分组加密算法的密文检索方法,用于数据库加密[4]。该方法对加密算法和加密过程进行部分改造,并且把日期和数字按照预先设定的规则转化为字符,以保证相同明文在加密后能够得到相同的密文,从而可以利用全文检索相关技术对密态数据进行检索。根据我们了解的信息,国内外正在研究的密文检索技术大部分基于密文关键字索引,而不是真正的密文全文索引,因此研究用于密文全文检索的安全索引结构无论从科研还是实用角度,都是十分有意义的。1.2.2搜索引擎缓存技术到目前为止,已经有很多学者对用户的搜索行为进行了跟踪和研究[5,6],从中得出了一些非常有价值的结论:在所有
您可能关注的文档
- 非上市民营商业地产企业融资模式研究——以br集团为例-research on financing mode of unlisted private commercial real estate enterprises - taking br group as an example.docx
- 非审计服务对审计独立性影响探讨—以新大地为例-probe into the influence of non-audit services on audit independence - taking new land as an example.docx
- 非农化村庄社区发展策略分析-analysis on the development strategy of non-agricultural village community.docx
- 非受体酪氨酸激酶c-abl通过cdc25c调控g2m转换的机理研究-study on the mechanism of non-receptor tyrosine kinase c - abl regulating g2m conversion through cdc 25c.docx
- 非受体酪氨酸激酶c-abl调节微管组装的机理分析-mechanism analysis of non-receptor tyrosine kinase c - abl regulating microtubule assembly.docx
- 非均匀热流条件下螺旋管内流动与传热特性分析-analysis of flow and heat transfer characteristics in spiral tubes with non-uniform heat flow.docx
- 非学历教育培训机构市场准入问题的分析——以郑州市为例-analysis on market access of non-academic education and training institutions - taking zhengzhou as an example.docx
- 非圆车削加工中高速往复进给技术的分析-analysis of high-speed reciprocating feeding technology in noncircular turning.docx
- 非增强螺旋ct对上尿路结石成分预测价值的分析-analysis of the predictive value of non-enhanced spiral ct on the composition of upper urinary tract stones.docx
- 非制度化治理手段的重拾——基于豫南陆村村级治理的调察-the revival of non-institutionalized governance means - based on the investigation of village-level governance in lu village, southern henan province.docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 我是铁杆中医.doc VIP
- 一种西他列汀中间体吡嗪盐酸盐的制备方法.pdf VIP
- 第一章-新能源材料与器件导论绪论.ppt VIP
- 2025中远海运重工有限公司招聘166人笔试历年参考题库附带答案详解.docx
- 最新人教版八年级上册英语各单元基础知识单词、短语、句子默写版可直接打印(最全)(2).doc VIP
- 工程建设项目绿色建造水平评价标准 TZSQX 017-2022 知识培训.pptx
- CJJT8-2011 城市测量规范.pdf VIP
- 巨人通力GPN65KM(GDL)-YH无机房_电气原理图纸51151826D01U-2023-8.pdf
- 潦河渡槽充水试验总结报告(初稿).doc VIP
- 储能技术 第7章 飞轮、超导与超级电容器.ppt VIP
原创力文档


文档评论(0)