- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SEWM2008中文Web检索评测 闫宏飞 School of EECS, Peking University 4/13/2008 内容 评测任务介绍 Task1:主题网页发现和网页内信息块发现 Task2:非网页数字资源分类 Task3:垃圾邮件过滤 /antispam/ 见华南理工大学,陈彬报告 测试集构建 Task1评测结果 总结 Task1:主题网页发现和网页内信息块发现 包括两个子任务 Task1.1:主题型网页发现 Task1.2:网页内容信息块发现 Task2:非网页数字资源分类 Task2背景 对非网页资源的访问需求首次超过网页信息查找和邮件,成为拉动网民使用互联网的第一因素。[2007.12,CNNIC报告] 非网页资源 通过互联网传播共享 以文件目录为主要存储组织结构 内容独立、构成完整、主题明确。具有一定质量和公共访问需求的数字化实体 Task2研究意义 网络资源现状 数量越来越多 发布和管理是无序的 命名、传播、组织都具有较大随意性 对随意性强的非网页资源的自动组织可应用于数字图书馆、网络教学资源库藏、专题内容管理系统等领域 首要任务:自动分类——给定资源实体的属性,预测其主题类别。 Task2可行性探讨 本次评测提出: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息,合理形成特征,找到适当的分类方法,预测资源的内容类别 理由: 1)这些属性比资源文件本身更容易获取 2)是各种资源共有的属性 3)避免了对内容分析的复杂和限制 4)名字提供了多种浓缩信息(内容类别、关联、时间、版本等) 探讨:通过这些“低成本”特征,利用已知的自动学习技术,解决非网页资源这种带有自身结构,具有复杂数据类型的实体分类。 Task2评测主旨 如何从给定资源属性中确立适用于分类的特征 什么样的分类方法适合解决数字资源分类问题 CDAL16th数据集介绍 CDAL16th 互联网上搜集近1.7万数字资源 人工标注主题类别。类别体系是层次分类式 是CWT数据集系列的一种。 评测使用: 1个训练数据集cwt_cdal_train(9346) 1个用于评测结果的数据集cwt_cdal_test(6223) 类别的样本分布不均匀,剔除样本稀少的类别,共选用26个中等层次的类别及其中资源。 Task2评测指标 总体正确率 Macro-F1 参赛队所使用的方法(1/3) SDU: 特征选择: 文件格式(理由:一种文件格式往往只存在于特定类) 一定格式文件的平均大小(理由:相同格式的文件在不同类资源中大小不相近) 资源大小 上下文环境(通过资源名、文件名、子目录名作关键词,提交搜索引擎返回相关网页。对网页内容分析,提取高频词) 分类方法: KNN SVM 使用了资源上下文环境中提取出的高频词 参赛队所使用的方法(2/3) PKU: 特征选择: 前缀:资源名、文件名、子目录名切分出的片段; 名字浓缩了用户想要表述的信息,处于书写习惯会有分割信号将其彼此隔开; 资源名承载了用户命名的行为,同类资源有趋同模式。典型例子:如divx格式的电影名多是点号分割、软件类资源中win、tar等高频词汇片段 组成片段之间语序和位置关系不强,近似相互独立 后缀:文件格式 文件名后缀( 理由:后缀对类别有一定提示作用 ) 参赛队所使用的方法(3/3) PKU 分类方法: Naive Bayes+Simple Good-Turing平滑(理由:特征满足条件独立假设;分类方法的理论基础简洁而坚实。且好的平滑方法能够处理统计方法中经常遭遇的稀疏问题) 名字切分依据:字符类型变化+出现标点符号+大小写转换。 训练中尝试了使用所有特征的60%、80%和100%对分类效果的影响,最后选用100%特征(名字切分所得片段)训练模型参数 Task2评测结果 Task2资源类别 Task2评判 对本次竞赛所使用的数据集而言: 宏观F1 :SDU2(使用了SVM方法+文件平均大小+资源大小+网页扩展信息)最高,其次是SDU3(SVM)、PKU1(Naive Bayes)、SDU1(KNN) 总体正确率(AC) :SDU3(使用了网页扩展信息中提取的上下文高频词)最高、其次是SDU2;SDU1与PKU1接近。 祝贺SDU-邵海敏、王川川! 结果分析(1/3) 正确率的影响因素 网页文本对数字资源实体的扩展 资源实体的样本分布不均匀——互联网上热点资源(影视、歌曲等)的样本数目远大于其他类别,这些资源在互联网上对应的相关文本描述又非常丰富,所以针对性地从网上搜集扩展信息,有助于提高资源的分类正确率。但是受限于类别。 对于大量存在的非热点资源,甚至多数是用户自行组织制作的有价值资源,网上并不能找到有关描述。而这部分资源可能更有保存价值(副本少易消失的
您可能关注的文档
- 审美形上学 一、美育的提出 二、审美形上学释义 三、审美形上学的三种形态 四、追求自由的三重境界和意涵 五、走向未来的中国当代审美形上学 六、研讨思考题.ppt
- 判别分析 1.判别分析的基本原理 2. SPSS判别分析 3.本章小结.ppt
- 生物药剂学 1生物药剂学概述.ppt
- 关于我国高校英语专业的转型升级(陈建平).ppt
- 毛首鞭形线虫(Trichuris trichiura Linnaeus,1771).ppt
- 中级化学实验(Ⅲ) 实验41 界面移动法测定离子的迁移数.ppt
- 中国重要会议论文全文数据库(西南科技大学图书馆).ppt
- 现代信息查询与利用 实践四典型搜索引擎训练.ppt
- 声速测定:实验原理 实验装置 实验内容.ppt
- 第十五章 内部审计(云南财经大学会计学院).ppt
- 大学生心理健康教育(朱丽丽).ppt
- EBSCO数据库简介(冯勤).ppt
- 传播学 第五章 传播与符号 第一节 符号概述 第二节 符号与意义 第三节 语言符号 第四节 非语言符号.ppt
- 第二章 继承爱国传统 弘扬民族精神 第一节~第三节.ppt
- 第十六章 管理的创新职能 第一节 创新及其作用 第二节 创新职能的基本内容 第三节 创新过程及其管理 第四节 工作流程的再造.ppt
- 第一章·读解是电影审美过程的深化 1.电影语言特征 2.什么是读解 3.读解的本质.ppt
- 高职《思想道德修养与法律基础》专题五 了解法律体系 维护法律权威(徐琴).ppt
- 江西农业大学MPA学位论文写作 学位论文写作规范(陈美球).ppt
- 市场营销学 第十三章 整合营销 第一节~第四节.ppt
- 兽医微生物学 第四章 细菌等微生物的生态 第一节~第三节.ppt
最近下载
- 植保无人机飞行作业服务设备维护及调试方案.doc VIP
- 海迪克新材料科技有限公司年产聚-3,4-乙烯二氧噻(PEDOT)精品 47.7 吨新建项目环评报告表.docx VIP
- 2025年西师版三年级上册数学全册教案(完整) .pdf VIP
- 急救技能—心肺复苏(2024版).pptx VIP
- T_ZNZ 094—2024(滨海盐碱地生物改良技术规范).pdf VIP
- 数学北师大课标版八年级上册综合与实践 创新作业设计模板.docx VIP
- 甲状腺危象病人的护理.pptx VIP
- 2021年咸阳经开城市发展集团有限公司招聘试题及答案解析.docx VIP
- 2024年人教版七年级英语上册单词 .pdf VIP
- 化工总控工培训.pptx VIP
文档评论(0)