基于结构调整的Web页分块研究.pdfVIP

  • 3
  • 0
  • 约1.11万字
  • 约 5页
  • 2018-01-12 发布于广东
  • 举报
2007 江苏省自动化学会学术年会论文集 基于结构调整的 Web 页分块 李雄,金立左 (东南大学,南京 210096) 摘要:根据结构和主题将 Web 页分成多个信息块是 Web 信息处理的重要任务。本文针对分块 算法对 Web 页的适应能力不强的问题,分析总结了影响分块算法效果的两个主要因素:复杂 的页面布局方式和标签冗余。在此基础上,提出了 Web 页结构调整算法。首先将 Web 页的标 签树转化为行列树,然后修剪行列树中的冗余结点。本文最后用路径熵方法和内容距离方法 对结构调整前后的页面进行了对比分块实验。实验数据表明,结构调整有效地改善了分块算 法的分块效果。 关键词:信息抽取;网页分块;页面布局;冗余结点 0 引 言 从各种类型的 Web 页中抽取有效信息,是当前互联网信息处理中的重要课题。Web 信息 抽取可用于信息检索、移动终端自适应网页浏览和事件监控等领域。页面分块是这些应用中 的基础技术,例如

文档评论(0)

1亿VIP精品文档

相关文档