- 17
- 0
- 约1.53万字
- 约 4页
- 2017-08-22 发布于重庆
- 举报
基于分块的网页正文信息提取算法研究.pdf
维普资讯
第27卷 计算机应用 V01.27
2007年 6月 ComputerApplications June2o07
文章编号 :1001—9081(2007)S1一o024—03
基于分块的网页正文信息提取算法研究
黄文蓓,杨 静,顾君忠
(华东师范大学计算机科学技术系,上海 200062)
(wbhuang@ica.stc.sh.an)
摘 要:提出并实现了一种从 web页面获取正文的方法。该方法包括2个步骤:网页分块和对
内容块的取舍。网页分块采用了一种 自底向上分析标签树的 自动分块算法,该算法比起以往方法更
准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨
别出含有正文的内容
原创力文档

文档评论(0)