基于HTML 语义分析的网页正文提取.docVIP

  • 12
  • 0
  • 约 4页
  • 2015-08-11 发布于河南
  • 举报
基于HTML 语义分析的网页正文提取.doc

基于HTML语义分析的网页正文提取 朱征宇 任翔 苑昆峰 徐静秋 田云艳 (重庆大学计算机学院 重庆 400044) 摘要: 随着网络的迅猛发展,web服务已经成为研究的热点之一。本文介绍了一种常用的文件类型网页文件的文本信息预处理技术。该方法能够解析网页文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。 关键词: HTML; 网页正文; web服务 中图法分类号:TP391 文献标识码: A 文章编号Research on Main Text Extraction for Chinese Web Pages Based on Semantic Analysis of HTML ZHU Zheng-yu,REN Xiang,YUAN Kun-feng,XU Jing-qiu,TIAN Yun-yan (College of Computer, Chongqing University , Chongqing 400044 China) Abstract: With the increasing of Internet, web Service has

文档评论(0)

1亿VIP精品文档

相关文档