基于重复模式的自动Web信息抽取.pdfVIP

  • 17
  • 0
  • 约1.89万字
  • 约 4页
  • 2017-08-10 发布于北京
  • 举报
第34卷 第22期 计 算 机 工 程 2008年 11月 VoL34 No.22 ComputerEngineering November2008 · 软件技术与数据库 · 文章编号:1000--3428(2008)22--0073_-o 文 ———— ■ 基于重复模式的 自动 Web信息抽取 胡仁龙,袁春风,武港山,濮小佳 (南京大学计算机软件新技术国家重点实验室,南京 210093) 摘 要:互联网上存在很多在线购物网站,抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站 提出一种 自动的Web信息抽取方法,通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容,该方法在抽取过程中不需 要人工干预。对 1O个在线购物网站进行了测试,实验结果表明提出的方法是有效的。 关健词:Web信息抽取;DOM树;重复模式

文档评论(0)

1亿VIP精品文档

相关文档