- 5
- 0
- 约2.67千字
- 约 3页
- 2018-11-24 发布于河南
- 举报
引擎评估实验
搜索引擎的质量评测
!!如何评测搜索引擎的质量对于企业和用户都非常重要,它是搜索技术研究的基础性工作。
对搜索引擎的评测,
国际:在传统信息检索领域最有影响力的是TREC组织的年度测评,
官方网站为/
中国:搜索技术评估工作的开展主要由北京大学计算机网络与分布式系统实验室承担
关于质量评测的具体方法讲解,请参考文献《搜索引擎检索系统质量评估》。
!!!搜索引擎检索系统的质量评估实验
原则与方法总述
1按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估
实验用InfoMall系统提供的历史网页服务消除不同搜索引擎搜集系统收集网页集合的差异使用50左右规模的查询集合和DCG这样的连续型评估指标可以有效进行评估实验
二. 评测内容:
设置一个评测任务:网页检索。该任务包含一个评测项目:相关网页检索,
相关网页检索定义如下:给定主题,返回测试集中与该主题相关的网页并按相关度进行排序。
三. 主题 与查询集的构建:
(一)查询任务
按类别构造评估查询集以更加精确的评估系统性能,文献[1]按用户信息将查询需求分为3类:
类别 用户需求 判别准则 导航型 寻找知道名称的站点或主页 制定公司、机构、网站名称的查询 信息型 寻找主题相关的文档页面 页面内容可满足信息需求的查询;人名、小说、电影查询归到此类 事务型 用户期望找到一个服务入口,需要进一步进行服务访问 对软件、图片音乐资源等的下载查询;信息服务的查询 (二)构建查询集
方法一:根据用户查询日志创建短查询
作用:关键字查询的准确率
解释:$$ 查询:信息系统的实际输入
[ 问题:虽然我们看不到用户查询日志,但是可以利用搜索引擎提供的实时短查询排名结果榜建构测试查询集。这种短查询构建的查询集只能体现准确性问题,不能体现相关性,所以我们不采用]
方法二:模拟用户需求创建主题集
作用:
$$ 主题(topic):模拟用户需求,有若干字段组成,采用规范格式描述用户希望检索的信息。
我们测试采用的是SEWM2005中文Web信息检索评测提供的主题集。根据主题构造查询。更详细的说明见信息检索评测大纲。
对主题格式的说明:主题(Topic)由若干字段组成,采用规范格式描述用户希望检索的信息。主题由 4 个字段组成:编号(num)、标题(title)、描述(desc)和叙述(narr)。汉字编码方式为 GB2312。下面给出一个主题的例子:
top
num 编号:001
title 自然语言处理
desc 描述:
文档应当涉及在中国得到研究和开发的自然语言处理技术。
narr 叙述:
一篇相关的文档应当涉及以下内容:自然语言处理技术;研究自然语言处理技术的公司
或者研究机构;利用自然语言技术开发的产品。
/top
方法三:因为我们不可能建立一个文档集,所以没办法计算召回率,解决的办法是,构造一个返回文档较少,可以计数的查询。
四.查询结果:
1实验评估对象:取3个搜索引擎作为评估对象:Google, Baidu 和 yahoo.
2对查询结果的加工处理:文献[8]指出,以P@N为评估指标时,结果随着文档集合大小增长而增长。评估对象收集的网页范围!数量的差异对评估有重要影响。为了避免不同系统的文档集合的差异对测评结果的影响,我们采用[2]中提出的方法,以Info Mall[3]网页数据集为基准,它目前存储了10亿中国网页。对建立起来的查询集, 将3个搜索引擎的前50个检索结果向InfoMall系统请求这些结果URL的历史网页,当InfoMall系统返回错误,告知被请求网页不存在(http的404错误码)时,对应检索结果被忽略。这样得出基于相同的文档集合的查询结果。
五.评测指标:
A.信息型查询的评估指标B.导航型查询的评估指标
信息型查询的评估指标
评估准则:a主题相关性——主要通过准确率体现。采用二元评判,即一个网页或者与主题相关,或者与主题不相关。一个网页与主题相关,必须同时满足以下两个条件:
[1] 网页的内容切合主题
[2] 网页的内容符合主题的 desc 域(描述)和 narr 域(叙述)提出的约束条件
b 内容质量——主要通过P@10和召回率以及准确率和召回率的综合指标体现
量化指标:
项目 计算方法 作用 准确率 Precison =(检索正确的文档数/检索出的文档数)×100% 检索结果中有多少文档真正相关 P@10 返回的前 10 个结果的准确率。 将排序因素考虑在内 召回率 Recall =(检索正确的文档数/文档库中符合检索条件的文档数)×100% 文档库中所有的相关文档到底有多少被系统检索出来 F1 值 F1=[(2×Precision×Recall)/ Precision + Recall]×10
原创力文档

文档评论(0)