SEWM2008中文Web检索评测最全版.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SEWM2008中文Web检索评测最全版.ppt

* tyuyt utyu 1、网页分块判断 各队的分块方法都比较简单。大连理工提交的两个结果分别采用了以table、tr、td 、div 四个标签为分块节点,和仅以p标签为分块节点两种方法。后者由于过于简单,实际评测效果不如前者。而山东大学提到根据table,div,td,p等容器标签对网页分块,再根据某种规则对某些网页块进行合并的改进型算法,但不知是否最终实现。 在噪音过滤,网页分块的基础上,大连理工采用了基于规则和基于Bayes的语义分析方法,同时针对本次任务的网页特性做了优化,效果优异。但从大连理工提交的结果内容看,对H1等标签可能做了特殊处理,在他们的工作报告中没有提及。 在网页分块的基础上,山东大学提取文字数最多的网页块作为网页内容信息块,这一方法的缺点是不能处理含有多个内容信息块的网页。 2、网页整体性判断 华南理工一队,二队采用了整体性判断方法。 华南理工一队的方法是由叶子节点开始,向上寻找包含所有有效文本信息的最近节点。 其中有效文本信息的判断是依靠每个节点的文本长度。这个方法的局限一是不能处理含有多个内容信息块的网页,二是不能处理所有网页,比如表格型网页需要单独处理。 华南理工二队采用DSE算法,考察了URL相似度对DSE的影响,通过网页间结构比较, 并计算锚文本与正文块的比例来提取内容信息块,算法相对比较完善,但也有对不同类型的网页处理时普适性不够的问题。 3、其他特殊方法 四川大学的算法比较特殊,他们认为内容信息块在长度上相对孤立,所以使用了基于偏差的孤立点检测算法,以块的大小作为属性,检测孤立点,得到的孤立点即内容块。这个算法的缺点在于只以内容长度作为衡量标准,特征过少。 * tyuyt utyu 邱江涛 qjt163@163.com, 四川大学计算机学院数据库与知识工程研究所代表队 SEWM2008-scu.ppt 人民大学信息学院 * tyuyt utyu * tyuyt utyu SEWM2008中文Web检索评测 闫宏飞 School of EECS, Peking University 4/13/2008 * yrty 内容 评测任务介绍 Task1:主题网页发现和网页内信息块发现 Task2:非网页数字资源分类 Task3:垃圾邮件过滤 /antispam/ 见华南理工大学,陈彬报告 测试集构建 Task1评测结果 总结 * yrty Task1:主题网页发现和网页内信息块发现 包括两个子任务 Task1.1:主题型网页发现 Task1.2:网页内容信息块发现 * yrty Task2:非网页数字资源分类 * yrty Task2背景 对非网页资源的访问需求首次超过网页信息查找和邮件,成为拉动网民使用互联网的第一因素。[2007.12,CNNIC报告] 非网页资源 通过互联网传播共享 以文件目录为主要存储组织结构 内容独立、构成完整、主题明确。具有一定质量和公共访问需求的数字化实体 * yrty Task2研究意义 网络资源现状 数量越来越多 发布和管理是无序的 命名、传播、组织都具有较大随意性 对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域 首要任务:自动分类——给定资源实体的属性,预测其主题类别。 * yrty Task2可行性探讨 本次评测提出: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别 理由: 1)这些属性比资源文件本身更容易获取 2)是各种资源共有的属性 3)避免了对内容分析的复杂和限制 4)名字提供了多种浓缩信息(内容类别、关联、时间、版本等) 探讨:通过这些“低成本”特征,利用已知的自动学习技术,解决非网页资源这种带有自身结构,具有复杂数据类型的实体分类。 * yrty Task2评测主旨 如何从给定资源属性中确立适用于分类的特征 什么样的分类方法适合解决数字资源分类问题 * yrty CDAL16th数据集介绍 CDAL16th 互联网上搜集近1.7万数字资源 人工标注主题类别。类别体系是层次分类式 是CWT数据集系列的一种。 评测使用: 1个训练数据集cwt_cdal_train(9346) 1个用于评测结果的数据集cwt_cdal_test(6223) 类别的样本分布不均匀,剔除样本稀少的类别,共选用26个中等层次的类别及其中资源。 * yrty Task2评测指标 总体正确率 Macro-F1 ,其中m表示类别数 * yrty 参赛队所使用的方法(1/3) SDU: 特征选择: 文件格式(理由:一种文件格式往往只存在于特定类) 一定格式文件的平均大小(理由:相同格式的文件在不同类资源中大小不相近

文档评论(0)

liuxiaoyu92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档