SEWM 2008中文Web检索评测报告.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SEWM 2008中文Web检索评测报告.ppt

主题型网页发现-系统设计 系统设计流程 主题型网页发现-特征提取 特征属性 根据对主题型网页与非主题型网页特征的 总结,本系统采用以下特征来区分两者: 链接标签占网页的所有标签的比率 链接文本内容占全文内容的比率 网页文本内容中标点符号的个数 网页URL的深度 网页URL的后缀 eg:.html,.asp,.shtml… 主题型网页发现-特征提取方法 特征值的计算方式 将所有的特征都转化为0~1之间的数值,其中后面三个特征值采用了概率统计的方式 Eg.根据人工判断的方式,获取2000个样本网页,1000个为主题型网页,1000个为非主题型网页 网页深度为0、1、2…的主题型网页数为m0、m1、m2…,非主题型网页数为n0、n1、n2…。则深度为i的网页,其特征向量在网页深度这一维的值为 主题型网页发现-特征提取方法 网页去噪 为了使网页中提取出来的特征,更好地区分两类网页,首先必须对网页去噪 采用网页内信息块发现任务中的DSE算法,将网页周边的广告链接去除后再提取特征 主题型网页发现-网页分类 分类工具 Svm-light开源项目 分类流程 主题型网页发现-总结 总结 找到一些区分主题型与非主题型网页的特征 采用概率统计方法对特征进行数值化 采用SVM分类算法对网页进行分类 主题网页信息抽取— 我们的改善(2) DSE算法的局限:某些网页,类似新浪博客的网页,匹配过滤后依然保留大量的导航结点 改善:加入“内容块链接内容比” SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室 * 目录 主题型网页发现 网页内容信息块发现 提取区分主题型与非主题型网页的特征 对70th网页采用DSE算法进行去噪 每个网页用多维的特征向量表示 根据特征向量,采用svm算法对网页进行分类 找到主题型网页集合 样本网页 样本特征向量 特征提取 分类模型 SVM训练 测试网页 网页特征向量 特征提取 分类模型 SVM分类 分好类的网页 * 目录 主题型网页发现 网页内容信息块发现 * 主题网页信息抽取—概要 对象:主题网页 目标:抽取正文块并标识位置 方式:抽取主题块 = 网页去噪 选取算法:Data-rich Section Extraction * 主题网页信息抽取—DSE的思路 同一Web Site的内容网页基本是基于同一模板生成,主题性网页的这一特征更加明显。 “同一模板”意味它们对应的DOM树结构相同 同一模板的噪音结点虽然内容不同,但结构均一致 包含正文块的内容结点的结构基本不一致 * 主题网页信息抽取—DSE方法 基本步骤: 选取跟目标网页匹配的样本网页 即找到跟目标网页具有相似url的网页 对目标网页和样本网页进行匹配 主题网页信息抽取— DSE * 主题网页信息抽取— 我们的改善(1) 发现“相似URL”过程的改进 DSE的缺点:I/O开销大 改进: 对70th个网页进行域名聚类 在训练集中查找具有相似url的样本网页 对url的域名进行索引(lucene),从而减少搜索url列表时的时空开销 * 主题网页信息抽取— 内容链接比的做法 DSE算法:仅仅是网页结构比较 内容链接比:内容角度的分析 锚文本与正文块的比例 过滤因子:0.33 主题网页信息抽取—流程 DSE * 总结 主要针对主题型网页进行块抽取 考察了URL相似度对DSE的影响 链接内容比的过滤效果 * 展望 DSE算法的鲁棒性 应用到搜索引擎的优化:基于主题块的索引以及检索 * 谢谢大家!欢迎交流!

文档评论(0)

gshbzl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档