- 0
- 0
- 约1.06万字
- 约 4页
- 2026-05-27 发布于山东
- 举报
·24·《测控技术}2009年第28卷第5期
面向敏感网页识别的网页内容
获取方案的设计与实现
陈欣,卓力
(北京工业大学信号与信息处理研究室,北京100124)
摘要:面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext
MarkupLanguage)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。
测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所
获取的内容可以满足后续敏感网页识别的应用需求。
关键词:MFC;HTML;文本获取;图像获取
中图分类号:TP391文献标识码:A文章编号:1000—8829(2009)05—0024—04
DesignandImplementationofWebContentExtractionfor
原创力文档

文档评论(0)