NET抓取和分析网页的类.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NET抓取和分析网页的类

主要功能有: 1、提取网页的纯文本,去所有html标签和javascript代码 2、提取网页的链接,包括href和frame及iframe 3、提取网页的title等(其它的标签可依此类推,正则是一样的) 4、可以实现简单的表单提交及cookie保存 using?System; using?System.Data; using?System.Configuration; using?System.Net; using?System.IO; using?System.Text; using?System.Collections.Generic; using?System.Text.RegularExpressions; using?System.Threading; using?System.Web; ///?summary ///?网页类 ///?/summary public?class?WebPage { ????#region?私有成员 ????private?Uri?m_uri;???//网址 ????private?ListLink?m_links;????//此网页上的链接 ????private?string?m_title;????????//此网页的标题 ????private?string?m_html;?????????//此网页的HTML代码 ????private?string?m_outstr;???????//此网页可输出的纯文本 ????private?bool?m_good;???????????//此网页是否可用 ????private?int?m_pagesize;???????//此网页的大小 ????private?static?Dictionarystring,?CookieContainer?webcookies?=?new?Dictionarystring,?CookieContainer();//存放所有网页的Cookie ????private?string?m_post;??//此网页的登陆页需要的POST数据 ????private?string?m_loginurl;??//此网页的登陆页 ????#endregion ????#region?私有方法 ????///?summary ????///?这私有方法从网页的HTML代码中分析出链接信息 ????///?/summary ????///?returnsListLink/returns ????private?ListLink?getLinks() ????{ ????????if?(m_links.Count?==?0) ????????{ ????????????Regex[]?regex?=?new?Regex[2]; ????????????regex[0]?=?new?Regex((?m)a[^]+href=(\|)?(?url([^\\\s)])+)(\|)?[^]*(?text(\\w|\\W)*?)/,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase); ????????????regex[1]?=?new?Regex([i]*frame[^]+src=(\|)?(?url([^\\\s)])+)(\|)?[^]*,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase); ????????????for?(int?i?=?0;?i??2;?i++) ????????????{ ????????????????Match?match?=?regex[i].Match(m_html); ????????????????while?(match.Success) ????????????????{ ????????????????????try ????????????????????{ ????????????????????????string?url?=?new?Uri(m_uri,?match.Groups[url].Value).AbsoluteUri; ????????????????????????string?text?=?; ????????????????????????if?(i?==?0)?text?=?new?Regex(([^]+)|(\\s)|(nbsp;)||\,?RegexOptions.Multiline?|?RegexOptions.IgnoreCase).Replace(match.Groups[text].Value,?); ??????????????????

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档