面向敏感网页识别的网页内容获取方案的设计与实现.pdfVIP

  • 0
  • 0
  • 约1.06万字
  • 约 4页
  • 2026-05-27 发布于山东
  • 举报

面向敏感网页识别的网页内容获取方案的设计与实现.pdf

·24·《测控技术}2009年第28卷第5期

面向敏感网页识别的网页内容

获取方案的设计与实现

陈欣,卓力

(北京工业大学信号与信息处理研究室,北京100124)

摘要:面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext

MarkupLanguage)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。

测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所

获取的内容可以满足后续敏感网页识别的应用需求。

关键词:MFC;HTML;文本获取;图像获取

中图分类号:TP391文献标识码:A文章编号:1000—8829(2009)05—0024—04

DesignandImplementationofWebContentExtractionfor

文档评论(0)

1亿VIP精品文档

相关文档