基于.NET实现HTML下载与清理.docVIP

  • 19
  • 0
  • 约4.46千字
  • 约 10页
  • 2018-08-27 发布于福建
  • 举报
基于.NET实现HTML下载与清理

基于.NET实现HTML下载与清理   摘要:针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法。   关键词:.NET HTML文档 下载 清理   中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2011)03(a)-0005-02   在开发Web信息抽取系统时,需要解决的关键性技术问题主要包括:如何获取编码格式正确的Web页的HTML(HyperText Markup Language,即超文本标记语言)文档,如何清除文档中与抽取信息无关的内容,如何根据抽取信息的需要建立抽取规则,如何根据抽取规则实施抽取操作等。其中前两个属于开发前期要解决的技术问题,是本文讨论的重点。      1 HTML文档下载   要进行Web信息抽取,首先要获得待抽取网页的HTML文档,这是整个抽取工作的前提,只有下载到编码格式正确的HTML文档,才能保证抽取信息的正确性。   下载HTML文档可以使用.NET的System.Net命名空间中的WebRequest类和WebResponse类的方法来实现,也可以使用System.Net命名空间中WebClient类的方法来完成下载任务。   1.1 使用WebRequest和WebRespon

文档评论(0)

1亿VIP精品文档

相关文档