SEWM2008主题型网页发现和网页内容信息块发现大连理工.pptVIP

  • 2
  • 0
  • 约 14页
  • 2017-02-16 发布于湖北
  • 举报

SEWM2008主题型网页发现和网页内容信息块发现大连理工.ppt

SEWM2008 主题型网页发现和网页内容 信息块发现 大连理工大学信息检索研究室 孙晓玲 叶正 * * 主要内容 系统模块结构 主要的算法模块 方法的融合 总结与展望 系统模块结构 HTML解析器 过滤器 分块器 语义分析器 输出内容块 剪枝器 HTML文档 HtmlParser类的应用 递归的遍历DOM树把网页中的无用节点去掉 script style img --!.*-- noscript select 过滤器 分块器 分块结点决定了分块的粒度 Method1: 以table tr td div 四个标签 为分块节点 Method2: P 语义分析器 Method1:基于规则 语义信息:链接数,链接文字数/非链接文字数 Method2:基于概率,Bayes方法 语义信息: 特殊标签是否出现 :p , br,h1 标点符号 :含有较多的句号 信

文档评论(0)

1亿VIP精品文档

相关文档