SEWM 2008中文Web检索评测报告.ppt

下载文档

1
0
约1.56千字
约 20页
2017-08-10 发布于甘肃
举报
版权申诉
保障服务

SEWM 2008中文Web检索评测报告.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

主题型网页发现-系统设计系统设计流程主题型网页发现-特征提取特征属性根据对主题型网页与非主题型网页特征的总结，本系统采用以下特征来区分两者：链接标签占网页的所有标签的比率链接文本内容占全文内容的比率网页文本内容中标点符号的个数网页URL的深度网页URL的后缀 eg:.html,.asp,.shtml… 主题型网页发现-特征提取方法特征值的计算方式将所有的特征都转化为0～1之间的数值，其中后面三个特征值采用了概率统计的方式 Eg.根据人工判断的方式，获取2000个样本网页，1000个为主题型网页，1000个为非主题型网页网页深度为0、1、2…的主题型网页数为m0、m1、m2…，非主题型网页数为n0、n1、n2…。则深度为i的网页，其特征向量在网页深度这一维的值为主题型网页发现-特征提取方法网页去噪为了使网页中提取出来的特征，更好地区分两类网页，首先必须对网页去噪采用网页内信息块发现任务中的DSE算法，将网页周边的广告链接去除后再提取特征主题型网页发现-网页分类分类工具 Svm-light开源项目分类流程主题型网页发现-总结总结找到一些区分主题型与非主题型网页的特征采用概率统计方法对特征进行数值化采用SVM分类算法对网页进行分类主题网页信息抽取— 我们的改善（2） DSE算法的局限：某些网页，类似新浪博客的网页，匹配过滤后依然保留大量的导航结点改善：加入“内容块链接内容比” SEWM 2008中文Web检索评测报告木棉队魏本洁何章鸿毛志科黄翀民李浩文胜华南理工大学广东省计算机网络重点实验室 * 目录主题型网页发现网页内容信息块发现提取区分主题型与非主题型网页的特征对70th网页采用DSE算法进行去噪每个网页用多维的特征向量表示根据特征向量，采用svm算法对网页进行分类找到主题型网页集合样本网页样本特征向量特征提取分类模型 SVM训练测试网页网页特征向量特征提取分类模型 SVM分类分好类的网页 * 目录主题型网页发现网页内容信息块发现 * 主题网页信息抽取—概要对象：主题网页目标：抽取正文块并标识位置方式：抽取主题块 = 网页去噪选取算法：Data-rich Section Extraction * 主题网页信息抽取—DSE的思路同一Web Site的内容网页基本是基于同一模板生成，主题性网页的这一特征更加明显。 “同一模板”意味它们对应的DOM树结构相同同一模板的噪音结点虽然内容不同，但结构均一致包含正文块的内容结点的结构基本不一致 * 主题网页信息抽取—DSE方法基本步骤: 选取跟目标网页匹配的样本网页即找到跟目标网页具有相似url的网页对目标网页和样本网页进行匹配主题网页信息抽取— DSE * 主题网页信息抽取— 我们的改善（1）发现“相似URL”过程的改进 DSE的缺点：I/O开销大改进：对70th个网页进行域名聚类在训练集中查找具有相似url的样本网页对url的域名进行索引（lucene），从而减少搜索url列表时的时空开销 * 主题网页信息抽取— 内容链接比的做法 DSE算法：仅仅是网页结构比较内容链接比：内容角度的分析锚文本与正文块的比例过滤因子:0.33 主题网页信息抽取—流程 DSE * 总结主要针对主题型网页进行块抽取考察了URL相似度对DSE的影响链接内容比的过滤效果 * 展望 DSE算法的鲁棒性应用到搜索引擎的优化：基于主题块的索引以及检索 * 谢谢大家！欢迎交流！