SEWM2006中文Web信息检索评测报告.pptVIP

  • 0
  • 0
  • 约2.2千字
  • 约 10页
  • 2016-12-07 发布于广东
  • 举报
SEWM2006中文Web信息检索评测报告 大连理工大学信息检索研究室 董静 时达明 刘菁菁 宋丹 叶正 内容提纲 1、评测目标 2、系统设计 3、试验结果 4、未来工作 评测目标 主题提取(TD) 与主题相关的关键资源的入口 导航搜索 HP:一般为一主页 NP:满足用户需求的特定页面 主题提取(TD) 评分标准 1)是否大部分切合主题; 2)提供主题的可靠的信息; 3)不是一个更大的切合主题站点的一部分。 要求 在前十个结果中包含尽可能多的不同站点(用它们的网站首页面表示) 评估准则 前10个结果的精确率和前10个结果的平均精确率 导航搜索 HP 查询一个主页 NP 查询特定的页面 评估准则: 第一个正确答案出现位置的倒数平均值(MRR) 系统的设计-系统框架 系统模块 语料预处理 链接分析 索引(嵌入中文分词) 查询 网页预处理——去噪 网页噪音: 广告栏、导航条、修饰成分等部分。 功能: 减少索引量 提高检索速度 去掉与主题无关的内容 提高检索的准确度。 方法: 有标签table的网页,通过标签 table将网页分割成各个部分,对各个table的长和宽进行比较,去掉长宽比很大的部分(噪音部分); 没有标签table的网页,根据其是否存在段落文字来判断是否为主题内容; 网页预处理——去噪(续) 不足: 网页的主题内容

文档评论(0)

1亿VIP精品文档

相关文档