基于重复模式的自动Web信息抽取.pdfVIP

下载本文档

17
0
约1.89万字
约 4页
2017-08-10 发布于北京
举报

基于重复模式的自动Web信息抽取.pdf

第34卷第22期计算机工程 2008年 11月 VoL34 No．22 ComputerEngineering November2008 · 软件技术与数据库 · 文章编号：1000--3428(2008)22--0073_-o 文 ———— ■ 基于重复模式的自动 Web信息抽取胡仁龙，袁春风，武港山，濮小佳 (南京大学计算机软件新技术国家重点实验室，南京 210093) 摘要：互联网上存在很多在线购物网站，抽取这类网站页面里的商品信息可以为电子商务、Web查询提供增值服务。该文针对这类网站提出一种自动的Web信息抽取方法，通过检测网页中的重复模式以及分析主题内容的特征获取网页的主题内容，该方法在抽取过程中不需要人工干预。对 1O个在线购物网站进行了测试，实验结果表明提出的方法是有效的。关健词：Web信息抽取；DOM树；重复模式

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于重复模式的自动Web信息抽取.pdfVIP

基于重复模式的自动Web信息抽取.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档