- 19
- 0
- 约4.46千字
- 约 10页
- 2018-08-27 发布于福建
- 举报
基于.NET实现HTML下载与清理
基于.NET实现HTML下载与清理
摘要:针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法。
关键词:.NET HTML文档 下载 清理
中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2011)03(a)-0005-02
在开发Web信息抽取系统时,需要解决的关键性技术问题主要包括:如何获取编码格式正确的Web页的HTML(HyperText Markup Language,即超文本标记语言)文档,如何清除文档中与抽取信息无关的内容,如何根据抽取信息的需要建立抽取规则,如何根据抽取规则实施抽取操作等。其中前两个属于开发前期要解决的技术问题,是本文讨论的重点。
1 HTML文档下载
要进行Web信息抽取,首先要获得待抽取网页的HTML文档,这是整个抽取工作的前提,只有下载到编码格式正确的HTML文档,才能保证抽取信息的正确性。
下载HTML文档可以使用.NET的System.Net命名空间中的WebRequest类和WebResponse类的方法来实现,也可以使用System.Net命名空间中WebClient类的方法来完成下载任务。
1.1 使用WebRequest和WebRespon
原创力文档

文档评论(0)