20060602中文Web测试集CWT200g之文档集的构建-PKU-北京大学.DOCVIP

20060602中文Web测试集CWT200g之文档集的构建-PKU-北京大学.DOC

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20060602中文Web测试集CWT200g之文档集的构建-PKU-北京大学

北京大学本科生毕业论文 中文Web测试集CWT200g之文档集的构建 PAGE 1 本科毕业论文评语 学生姓名 秦琦 学号成绩 论文题目 中文Web测试集CWT200g之文档集的构建 指导教师意见 秦琦同学的毕业设计论文工作涉及信息检索领域中评测集的构建工作,针对中文Web信息检索评测的需求,构建了CWT200g(Chinese Web Test collection with 200 GB web pages )文档集。目前该测试集已经用于SEWM2006中文Web信息检索评测。 CWT系列测试集是针对中文信息检索评估而制作的大规模Web测试集。该测试集的第二版CWT200g不仅相对于CWT100g在容量上提高一倍,还针对CWT100g中存在的问题,加入垃圾站点过滤和网页级别的重复内容过滤,并采取新的网页抓取策略,在提供更大的信息量的同时,保证整个数据集的内容质量。 论文对于CWT200g的种子站点列表制作、垃圾站点消除、抓取策略和后期的消重、采样工作进行介绍。特别对于制作过程中不同于CWT100g的步骤进行了重点分析与讨论。 毕设期间,秦琦同学工作努力,态度积极,按计划完成了任务,表现出一定的自主研发能力和较强的动手能力。 指导教师 (签字) 年 月 日 摘要 在信息检索领域中,信息检索系统评估对于信息检索系统的研究、开发和应用有着显著的影响。大规模的测试集被认为是信息检索系统评估工作的基础,其质量决定着评估工作的效率和评估结果的准确定。 CWT系列测试集是北京大学网络实验室面向中文信息检索评估而制作的大规模网络测试集。该测试集的第二版CWT200g不仅相对于CWT100在容量上提高一倍,还针对CWT100g中存在的主要问题,加入垃圾站点过滤和网页级别的重复内容过滤,并采取新的网页抓取策略,在提供更高的信息量的同时,保证整个数据集的内容质量。本文首先对Web、搜索引擎以及当前被广泛使用的Web测试集进行介绍,然后在对Web上网页分布特点进行分析的基础上,系统介绍了CWT200g的种子站点列表制作、垃圾站点消除、抓取策略和后期的消重、采样工作进行介绍。特别对于CWT200g制作过程中不同于CWT100g的步骤进行了重点分析与讨论。最后,本文对以上工作进行了总结和展望。 关键词 信息检索,CWT200g, 测试集, 文档集. On the Construction of the Document Set of a Large Scale Collection -- CWT200g Abstract In the field of IR (Information Retrieval), the evaluation of IR systems plays an important role and has significant impact on researches, development and applications within the field of IR. Because a large scale test collection is the basis of the evaluation, the quality of the test collection is considered to be a key factor of the effectiveness of the evaluation and the correctness of the results of such evaluation. The CWT is a series of large scale web test collections presented by the Net Lab of the Peking University Keywords Information Retrieval, CWT200g, Test Collection, Document Set. 目录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc136927727 第一章 引言 PAGEREF _Toc136927727 \h 5 HYPERLINK \l _Toc136927728 1.1 Web与搜索引擎 PAGEREF _Toc136927728 \h 5 HYPERLINK \l _Toc136927729 1.2 测试集 PAGEREF _Toc136927729 \h 6 HYPERLIN

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档