主题型网页发现与网页内容信息块发现.pptVIP

  • 1
  • 0
  • 约小于1千字
  • 约 7页
  • 2018-10-25 发布于江苏
  • 举报

主题型网页发现与网页内容信息块发现.ppt

主题型网页发现与网页内容信息块发现

主题型网页发现和网页内容信息块发现 山东大学 参赛人:关 冕 报告人: 陈竹敏 2008.4 任务描述 任务1: 主题型网页发现:根据主题型网页特征,找到包含信息的网页集合 任务2: 主题网页内信息块发现:即如何区分网页内的正文信息和噪音信息 任务1 主题型网页发现 (1) 提交两组结果 结果1: 采用根左右的方法深度优先遍历DOM树并对树中的结点进行编号,根据结点的编号确定处于网页中间部分的那些结点 计算这些结点中出现在超链接中的文字长度为L1, 这些结点中的文字总数为L2 若L1 / L2 =0.75,则认为网页为主题型网页。 任务1 主题型网页发现 (2) 结果2: 分析网页的URL,如果URL以/, index., .com/, .cn/,.net/等结尾,则认为该网页为导航型 采用根左右的方法深度优先遍历DOM树并对树中的结点进行编号,根据结点的编号确定处于网页中间部分的那些结点 计算这些结点中出现在超链接中的文字长度为L1, 这些结点中的文字总数为L2 若L1 / L2 =0.7,则认为该网页为主题型网页 任务1 主题型网页发现 (3) 标点符号法:在BODY与/BODY之间找到含有标点符号最多的标签结点(只考虑了“,”和“。”),如果在这个结点中标点符号的个数10,则认为该网页为主题型。采用此方法对训

文档评论(0)

1亿VIP精品文档

相关文档