- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
元搜索引擎中检结果优化策略的研究
元搜索引擎中检索结果优化策略的研究
摘要
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的
信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,
搜索引擎的出现为解决这一难题提供了方便。 .
然而,独立搜索引擎所覆盖的信息面相对来说,还不够宽。随着网络
的迅猛发展,独立搜索引擎越来越显得力不从心。为了改变这一状态,元
搜索引擎伴随着人们的需要就产生了。元搜索引擎所覆盖的信息范围相对
而言比较广,在一定范围内能提高了检索结果的查全率以及准确性。它吸
引着人们的浓厚研究兴趣,成为信息检索研究的热点之一。而由于元搜索
引擎所选取的各成员搜索引擎在检索方式、排序算法等方面采用不同的方
法,这就造成了在对返回结果进行相关处理时比较困难,所以它也是信息
检索研究的难点之一。本文在深入研究元搜索引擎的相关技术基础上,提
出了基于用户偏好的摘要/位置的结果排序算法和基于网页正文主题和摘
要的网页去重算法。
首先,简述了元搜索引擎的运作原理和分类,研究了元搜索引擎的核
心技术,并阐述了它的不足以及未来发展趋势。
其次,在深入研究元搜索引擎返回结果常用排序算法的基础上,提出
了一种改进的基于用户偏好的摘要/位置排序算法。该算法不仅能体现出查
询词与主题、摘要的相关度,而且能体现出用户对成员搜索引擎的偏好。
I
实验表明,该算法具有明显的优势,更能满足用户的个性需求。
再次,利用模糊匹配的思想,引入分词,提出一种基于网页正文主题
和摘要的网页去重算法。该算法首先对各成员搜索引擎返回来的网页标题
进行有关处理,提取出网页的主题信息,然后对主题、摘要进行分词,再
分别计算主题、摘要的相似度。二者结合能更好地体现出文章摘要的内容,
实现网页去重。实验表明,在网页去重方面,比起基于传统特征码的去重
算法,该算法具有明显的优势,更接近人工统计结果。
最后,设计出整个元搜索引擎系统,验证算法的有效性。
关键词:元搜索引擎成员搜索引擎结果排序 网页去重
lI
RESEARCHONSEARCHRESULTS
STRATEGYOFMETASEARCHENGINE
ABSTRACT
Inrecent the the weU
ne锕orl‘,as
years,withincreasingpopulari够of
asthe isin
ofVarious theinf.ormation
rapiddeVelopment
technologies,thus
ontheInternet.Itbecomesmoreandmoredi伍cultwhen
explosiVegrowth
wantto6ndtheinformationinthe the of
people web,butappearance
search tosolvethis
eⅡgines p阳bIem.
the search informationcoVered
HoweVer,forindependent
engine,th
您可能关注的文档
最近下载
- 学前儿童学习与发展核心经验健康领域.pdf
- 新人教版七年级下册英语U4词汇分类循环训练单(学生版).docx
- 2023年下半年教师资格证《高中生物》真题及答案.pdf VIP
- 电子版个人简历模板简历表格 个人简历.docx VIP
- 国家秘密载体印制资质现场审查保密知识测试试题库.pdf VIP
- 2025年新疆乌鲁木齐市高考数学二模试卷(理科)+答案解析(附后).pdf VIP
- 我的家乡黑龙江双鸭山.pptx
- 初级注册安全工程师考试(安全生产法律法规)考点重点资料梳理.pdf VIP
- (最全)山东省2016建筑工程消耗量定额.pdf
- 2025年徐州工业职业技术学院单招职业技能测试题库(历年真题).docx VIP
文档评论(0)