- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sewm2008中文web检索评测报告
主题型网页发现-系统设计 系统设计流程 主题型网页发现-特征提取 特征属性 根据对主题型网页与非主题型网页特征的 总结,本系统采用以下特征来区分两者: 链接标签占网页的所有标签的比率 链接文本内容占全文内容的比率 网页文本内容中标点符号的个数 网页URL的深度 网页URL的后缀 eg:.html,.asp,.shtml… 主题型网页发现-特征提取方法 特征值的计算方式 将所有的特征都转化为0~1之间的数值,其中后面三个特征值采用了概率统计的方式 Eg.根据人工判断的方式,获取2000个样本网页,1000个为主题型网页,1000个为非主题型网页 网页深度为0、1、2…的主题型网页数为m0、m1、m2…,非主题型网页数为n0、n1、n2…。则深度为i的网页,其特征向量在网页深度这一维的值为 主题型网页发现-特征提取方法 网页去噪 为了使网页中提取出来的特征,更好地区分两类网页,首先必须对网页去噪 采用网页内信息块发现任务中的DSE算法,将网页周边的广告链接去除后再提取特征 主题型网页发现-网页分类 分类工具 Svm-light开源项目 分类流程 主题型网页发现-总结 总结 找到一些区分主题型与非主题型网页的特征 采用概率统计方法对特征进行数值化 采用SVM分类算法对网页进行分类 主题网页信息抽取— 我们的改善(2) DSE算法的局限:某些网页,类似新浪博客的网页,匹配过滤后依然保留大量的导航结点 改善:加入“内容块链接内容比” SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室 * 目录 主题型网页发现 网页内容信息块发现 提取区分主题型与非主题型网页的特征 对70th网页采用DSE算法进行去噪 每个网页用多维的特征向量表示 根据特征向量,采用svm算法对网页进行分类 找到主题型网页集合 样本网页 样本特征向量 特征提取 分类模型 SVM训练 测试网页 网页特征向量 特征提取 分类模型 SVM分类 分好类的网页 * 目录 主题型网页发现 网页内容信息块发现 * 主题网页信息抽取—概要 对象:主题网页 目标:抽取正文块并标识位置 方式:抽取主题块 = 网页去噪 选取算法:Data-rich Section Extraction * 主题网页信息抽取—DSE的思路 同一Web Site的内容网页基本是基于同一模板生成,主题性网页的这一特征更加明显。 “同一模板”意味它们对应的DOM树结构相同 同一模板的噪音结点虽然内容不同,但结构均一致 包含正文块的内容结点的结构基本不一致 * 主题网页信息抽取—DSE方法 基本步骤: 选取跟目标网页匹配的样本网页 即找到跟目标网页具有相似url的网页 对目标网页和样本网页进行匹配 主题网页信息抽取— DSE * 主题网页信息抽取— 我们的改善(1) 发现“相似URL”过程的改进 DSE的缺点:I/O开销大 改进: 对70th个网页进行域名聚类 在训练集中查找具有相似url的样本网页 对url的域名进行索引(lucene),从而减少搜索url列表时的时空开销 * 主题网页信息抽取— 内容链接比的做法 DSE算法:仅仅是网页结构比较 内容链接比:内容角度的分析 锚文本与正文块的比例 过滤因子:0.33 主题网页信息抽取—流程 DSE * 总结 主要针对主题型网页进行块抽取 考察了URL相似度对DSE的影响 链接内容比的过滤效果 * 展望 DSE算法的鲁棒性 应用到搜索引擎的优化:基于主题块的索引以及检索 * 谢谢大家!欢迎交流!
您可能关注的文档
- receptor-mediatedendocytosis受体介导的内吞作用.ppt
- quebecwoodexportbureau(q-web)魁北克木材出口协会.ppt
- recordinghistory.ppt
- regulationofgeneexpression.ppt
- recruitingandselecting.ppt
- renalinsufficiency.doc
- relaxin2心衰治疗新希望.ppt
- revision9aunits4--6.ppt
- reportonadaptivenessofchinesecolleges.ppt
- researchonthenonlinearconcentrationmodelofscattering.ppt
- 执业药师之《药事管理与法规》检测卷讲解含答案详解(最新).docx
- 执业药师之《药事管理与法规》全真模拟模拟题及答案详解(全国通用).docx
- 2025年执业药师之《西药学综合知识与技能》模拟试题附参考答案详解(突破训练).docx
- 2025年执业药师之《西药学综合知识与技能》考前冲刺模拟题库含答案详解(培优a卷).docx
- 2025年执业药师之《西药学综合知识与技能》真题精选附答案详解(名师推荐).docx
- 执业药师之《药事管理与法规》强化训练模考卷带答案详解.docx
- 2025年执业药师之《西药学综合知识与技能》考前冲刺测试卷包附参考答案详解(b卷).docx
- 2025年执业药师之《西药学综合知识与技能》模考模拟试题及参考答案详解(夺分金卷).docx
- 2025年执业药师之《西药学综合知识与技能》真题含答案详解【b卷】.docx
- 2025年执业药师之《西药学综合知识与技能》考前冲刺模拟题库带答案详解(b卷).docx
最近下载
- 贵州省事业单位人员聘用合同书.doc VIP
- 4.建筑施工企业项目负责人安全生产考核合格证书样本.pdf VIP
- 贵州省事业单位人员聘用合同书范本.docx VIP
- 皮带接头硫化上.pptx VIP
- 陕西省事业单位合同5篇.docx VIP
- 贵州省事业单位人员聘用合同书(合同范本).pdf VIP
- SYT 4201.2-2019 石油天然气建设工程施工质量验收规范 设备安装工程 第2部分:塔类.docx VIP
- SYT 4201.4-2019 石油天然气建设工程施工质量验收规范设备安装工程 第4部分:炉类.docx VIP
- 解读2021新安全生产法课件PPT(内容完整).pptx VIP
- SY_T 4201.3-2019 石油天然气建设工程施工质量验收规范 设备安装工程 第3部分:容器类.docx VIP
文档评论(0)