基于分块的网页正文信息提取算法研究.pdfVIP

  • 17
  • 0
  • 约1.53万字
  • 约 4页
  • 2017-08-22 发布于重庆
  • 举报

基于分块的网页正文信息提取算法研究.pdf

基于分块的网页正文信息提取算法研究.pdf

维普资讯 第27卷 计算机应用 V01.27 2007年 6月 ComputerApplications June2o07 文章编号 :1001—9081(2007)S1一o024—03 基于分块的网页正文信息提取算法研究 黄文蓓,杨 静,顾君忠 (华东师范大学计算机科学技术系,上海 200062) (wbhuang@ica.stc.sh.an) 摘 要:提出并实现了一种从 web页面获取正文的方法。该方法包括2个步骤:网页分块和对 内容块的取舍。网页分块采用了一种 自底向上分析标签树的 自动分块算法,该算法比起以往方法更 准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨 别出含有正文的内容

文档评论(0)

1亿VIP精品文档

相关文档