- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题型网页发现和网页内容信息块发现 山东大学 参赛人:关 冕 报告人: 陈竹敏 2008.4 任务描述 任务1: 主题型网页发现:根据主题型网页特征,找到包含信息的网页集合 任务2: 主题网页内信息块发现:即如何区分网页内的正文信息和噪音信息 任务1 主题型网页发现 (1) 提交两组结果 结果1: 采用根左右的方法深度优先遍历DOM树并对树中的结点进行编号,根据结点的编号确定处于网页中间部分的那些结点 计算这些结点中出现在超链接中的文字长度为L1, 这些结点中的文字总数为L2 若L1 / L2 =0.75,则认为网页为主题型网页。 任务1 主题型网页发现 (2) 结果2: 分析网页的URL,如果URL以/, index., .com/, .cn/,.net/等结尾,则认为该网页为导航型 采用根左右的方法深度优先遍历DOM树并对树中的结点进行编号,根据结点的编号确定处于网页中间部分的那些结点 计算这些结点中出现在超链接中的文字长度为L1, 这些结点中的文字总数为L2 若L1 / L2 =0.7,则认为该网页为主题型网页 任务1 主题型网页发现 (3) 标点符号法:在BODY与/BODY之间找到含有标点符号最多的标签结点(只考虑了“,”和“。”),如果在这个结点中标点符号的个数10,则认为该网页为主题型。采用此方法对训练集进行实验,准确率为92%。但由于测试集中存在大量不符合此方法的网页,并没有被采用。 任务2 网页信息块发现 (1) 将网页进行分块 可以采用多种方法,比如只用table标签对网页分块,或者用table,div,td,p等容器标签对网页分块,再根据某种规则对某些网页块进行合并 本次竞赛中采用div,td,p容器进行网页分块 对分好的网页块进行处理,取文字数最多的网页块作为网页内容信息块,计算包含该网页块的最小标签的起始位置和长度 针对前一任务的两组结果, 提交对应两组结果 * * * Thank you!
您可能关注的文档
- 2004最新篮球规则.ppt
- 2006年中小学中专高中级教师职务评审量化评分-浙江长兴中学.doc
- 2006年刑事诉讼法学研究述评.doc
- 11地球的宇宙环境课件湘教版必修1.ppt
- 2007年普通高等学校招生全国统一考试语文试卷湖南-中国教育在线.doc
- 20082010年北京高等学校教育教学改革立项指引京教育.doc
- 2006年ifla世界图书馆与信息大会主旨发言人200中国国家图书馆.pdf
- 2008年工作回顾及2009年工作设想-ohiobagscom.ppt
- 2009-2010学年工商管理学院辅修双学位-中南财经政法大学精品课程.ppt
- 2009年国家精品课程推荐限额分配表高职.doc
文档评论(0)