北京大学博士学位论文答辩 * * 北京大学博士学位论文答辩 * * * * 3.4.1自动相关反馈实验 自动相关反馈实验数据收集 44个检索主题 改写成TREC标准格式 生成三种长度的查询:T,TD,TDN * * 3.4.1自动相关反馈实验 查询翻译优化与查询扩展实验结果比较 * * 3.4.1自动相关反馈实验 查询翻译优化与查询扩展结合的实验结果 MAP %Mono Base % Impr. CLIR Base % Impr. TWA % Impr. Post-QE T 0.4748 100.19% 42.33%** 18.94%** 7.54% TD 0.5905 101.51% 38.91%** 10.58%** 16.24%* TDN 0.5972 96.09% 27.04%** 2.65% 15.25%** * * 3.4.2用户相关性标注实验 实验步骤 40个检索主题,每个检索主题下有20篇文档需要用户判断相关性,总共有20*40=800个文档待判断 确定实验用户:8位自愿者 为用户分配任务:每人10个检索主题(200篇文献),每个检索主题被2个用户判断 用户进行相关性判断 阅读实验说明 检索前问卷调查 接受训练 对每个检索主题的文献进行相关性判断 检索后问卷调查 利用用户判断结果进行翻译优化 * * 3.4.2用户相关性标注实验 用户判断结果评价 一致性信度检验(Kappa Coefficient) 0.483,属于moderate 判断完全率(R)和准确率(P) 评价方法 判断准确率(P) 判断完全率(R) 严格相关评价(strict relevance) 0.8411 0.7397 松散相关评价(loose relevance) 0.7327 0.9274 * * 3.4.2用户相关性标注实验 用户相关反馈查询翻译优化实验结果分析 * * 3.4.2用户相关性标注实验 用户相关反馈与自动相关反馈比较 * * 3.4.2用户相关性标注实验 用户对系统的评价分析 大部分用户做实验之前对检索主题并不熟悉 摘要有助于用户判断文献的相关性 检索结果的译文基本不影响用户的相关性判断 检索关键词高亮显示有助于用户的相关性判断 多级相关性判断得到用户的认同 * * 3.4.3用户全程参与的相关反馈实验 实验步骤 确定实验用户:54位自愿者 “用户内实验设计(Within-Subject Design)”,即每个用户均用相同的9个检索主题进行检索,且每个用户均用3种方法:Baseline,即没有任何相关反馈的基准跨语言信息检索;TE,即在基准跨语言信息检索基础上,进行翻译优化(基于词对齐的翻译方法TWA);Combined,即在基准跨语言信息检索的基础上,进行翻译优化(基于词对齐的翻译方法TWA)与查询扩展(翻译后查询扩展方法Post-QE)的结合,即Combined=TE+QE。其中,每种方法均用3个检索主题进行检验。 * * 3.4.3用户全程参与的相关反馈实验 实验步骤 为了避免检索主题的顺序及检索方法的顺序所造成的影响,在本实验中,我们采用拉丁方阵(Latin Square)的方法对每个用户的检索主题、所用方法及检索顺序进行排列。9个检索主题轮转一圈有9种方式,3种方法有6种全排列,共有9*6=54种组合。因此,54个用户尽管所用检索主题和系统一样,但其顺序均不同。 用户编号 检索主题编号、所用方法,及检索顺序 s1 1b 2b 3b 4t 5t 6t 7c 8c 9c s2 1t 2t 3t 4c 5c 6c 7b 8b 9b s3 1c 2c 3c 4b 5b 6b 7t 8t 9t s4 2b 3b 4b 5t 6t 7t 8c 9c 1c s5 2t 3t 4t 5c 6c 7c 8b 9b 1b s6 2c 3c 4c 5b 6b 7b 8t 9t 1t s7 3b 4b 5b 6t 7t 8t 9c 1c 2c s8 3t 4t 5t 6c 7c 8c 9b 1b 2b s9 3c 4c 5c 6b 7b 8b 9t 1t 2t s10 4b 5b 6b 7t 8t 9t 1c 2c 3c s11 4t 5t 6t 7c 8c 9c 1b 2b 3b s12 4c 5c 6c 7b 8b 9b 1t 2t 3t s13 5b 6b 7b 8t 9t 1t 2c 3c 4c s14 5t 6t 7t 8c 9c 1c 2b 3b 4b s15 5c 6c 7c 8b 9b 1b 2t 3t 4t s16 6b 7b 8b 9t 1t 2t 3c 4c 5c s17 6t 7t 8t 9c 1c 2c 3b 4b 5b s18 6c 7c 8c 9b 1b 2b 3t 4t 5t s19 7b
原创力文档

文档评论(0)