基于.NET实现HTML下载与清理.docVIP

下载本文档

19
0
约4.46千字
约 10页
2018-08-27 发布于福建
举报

基于.NET实现HTML下载与清理.doc

基于.NET实现HTML下载与清理

基于.NET实现HTML下载与清理　　摘要:针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法。　　关键词:.NET HTML文档下载清理　　中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2011)03(a)-0005-02 　　在开发Web信息抽取系统时,需要解决的关键性技术问题主要包括:如何获取编码格式正确的Web页的HTML(HyperText Markup Language,即超文本标记语言)文档,如何清除文档中与抽取信息无关的内容,如何根据抽取信息的需要建立抽取规则,如何根据抽取规则实施抽取操作等。其中前两个属于开发前期要解决的技术问题,是本文讨论的重点。　　　　1 HTML文档下载　　要进行Web信息抽取,首先要获得待抽取网页的HTML文档,这是整个抽取工作的前提,只有下载到编码格式正确的HTML文档,才能保证抽取信息的正确性。　　下载HTML文档可以使用.NET的System.Net命名空间中的WebRequest类和WebResponse类的方法来实现,也可以使用System.Net命名空间中WebClient类的方法来完成下载任务。　　1.1 使用WebRequest和WebRespon

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于.NET实现HTML下载与清理.docVIP