- 4
- 0
- 约11.14万字
- 约 113页
- 2019-01-11 发布于上海
- 举报
互联网搜索系统中的高性能查询问题研究-信号与信息处理专业论文
摘要摘要
摘要
摘要
随着网络技术的迅速发展和互联网应用的不断普及,可以从互联网上获得 的信息呈爆炸式增长,互联网已经成为全球规模最大、使用最广泛的信息库。为 了有效地从这些海量数据中检索到需要的信息,互联网搜索引擎是一种必不可 少的技术手段。互联网搜索技术已经成为信息检索领域的重要研究课题。
由于海量的网页数据和巨大的查询需求,搜索引擎的效率是影响信息获取 的关键问题。因此,本文主要研究提高互联网搜索效率的方法,并重点研究适用 于大规模互联网搜索的TopK处理策略。TopK处理指使用各种优化手段、以最小 的代价从海量文本信息中获得正确的前K个结果。能否实现高效的TopK算法,对 互联网搜索的性能至关重要。本文的主要贡献包括以下几个方面:
1.本文提出了一种利用网页结构化数据特征的倒排索引结构,并且提出了利 用这种索引结构的高效TopK处理策略。在通用网页搜索中,当相关排序函 数考虑Term Proximity等多种因素的情况下,所提方法能明显提高TopK处 理的性能。本文还探讨了如何利用Term Proximity探测算法来进一步避免
不必要的Term Proximity分数计算。在TREC数据集上的实验结果表明,本 文中提出的算法不仅适用于线性组合的排序函数,对非线性的排序函数也
取得了明显的效果,而且对于近似TopK处理问题也获得了预期效果。和传 统的索引方法相比,创建基于网页结构化数据特征的倒排索只增加很小的 额外复杂度,而且没有增加存储空间消耗。因此,这种索引结构完全符合 大规模搜索引擎的需要。大量的实验结果证明本文提出的索引结构和算法 是有效的。
2.本文提出了一种通过对词组建立辅助索引来提高TopK处理性能的策略。考 虑到传统信息检索能利用词组索引来实现高效的词组查询处理,本文总结 了Term Proximity函数和词组的密切关系,提出对词组建立辅助索引来降 低对Term Proximity分数上限的估计。这样在对倒排索引进行TopK处理时 能够提前满足停止条件,或者节约不必要的Term Proximity分数计算,从而 提高了通用网页搜索d0TopK处理的性能。同时本文还研究了词组和词频分
布的特点,提出只对最有必要的一部分词组建立辅助索引,尽可能地减少
T
摘要词组索引所占空间的开销。本文提出三种不同格式的精简词组索引,并且
摘要
词组索引所占空间的开销。本文提出三种不同格式的精简词组索引,并且 比较它们的性能和空间效率,同时还研究7N用精简词组索引帮助基于网 页结构的倒排索引获得更高的TopK处理性能的可能性。
3.针对面向对象的搜索系统,本文研究了对象聚合映射的TopK处理问题,提 出了一个高效的TopK处理框架。对象聚合映射指的是利用一种对象的倒排 索引有效地检索出另一种对象。传统的做法是将对象聚合映射的TopK处理 分成检索和聚合两部分,而且主要优化其中的聚合部分。和传统方法不同, 本文把检索和聚合两部分当作一个整体来考虑,提出了三种TopK处理的优 化准则,并且利用多种类型对象的特征,建立了一种混合的倒排索引结构,
获得了实质意义上的TopK性能提升。
综上,本文提出了~系列针对互联网信息检索系统的TopK算法,通过在实际的 大规模互联网数据集上进行的各种实验,证明了这些方法的合理性和有效性,本 文研究的成果已经在实际的互联网搜索原型系统中获得了成功的应用。
关键词:搜索引擎,信息检索,性能优化,TopK处理,索引剪枝
II
ABSTR
ABSTR ACT
一—————————————————————————————————————————————————一
ABSTRACT
The World Wide Web grows SO rapidly that it has become the largest and the most popular source of readily available information in the world.To fully utilize the information on the Web,web search engines are vitally required.As a result, research on various web search techniques becomes increasingly important in the area of information retrieval.Due tO the huge amount of data and massive search requests, the search efficiency is key problem for the application o
您可能关注的文档
- 基于android的移动端校友相助平台的研究与实现-软件工程专业论文.docx
- 基于android的应用软件逆向分析及安全保护-计算机技术专业论文.docx
- 基于android的毕业设计管理系统的设计与实现-软件工程专业论文.docx
- 基于“拼贴”的南昌老城区景观提升策略研究-风景园林规划设计专业论文.docx
- 基于android平台的团购系统设计与实现-控制工程专业论文.docx
- 基于android智能手机的远程心电检测系统-电路与系统专业论文.docx
- 基因分型技术对益生菌婴幼儿配方乳粉中双歧杆菌鉴定的研究-微生物学专业论文.docx
- 基于android的便携式心电监护系统软件的设计-电子与通信工程专业论文.docx
- 厚朴酚对戊四氮点燃慢性癫痫大鼠行为及海马bdnf表达的影响-神经病学专业论文.docx
- 基因表达数据的双向聚类算法的研究-计算机应用技术专业论文.docx
最近下载
- 2025 AI智能体的实践应用:评估与治理基础框架白皮书(中文).docx
- 2025-2026学年高一语文下学期开学摸底考试试题及答案详解(含范文参考).docx VIP
- 混凝土排水管道基础及接口 04S516.pdf VIP
- 基于LABVIEW的虚拟频谱分析仪设计.pdf VIP
- 潍柴WP7NG系列天然气发动机维修手册.PDF
- 数据结构期末复习题.docx VIP
- 2026年苏州健雄职业技术学院单招职业技能考试参考题库及答案详解.docx VIP
- 清洁能源领域:氢能企业的组织架构与职责.docx VIP
- T∕SIA 065-2025 智能体行为安全要求.pdf VIP
- 22G101三维图集合集.pdf VIP
原创力文档

文档评论(0)