Spider Stdio (采集工作站) 用户手册.docxVIP

  • 10
  • 0
  • 约 8页
  • 2017-05-13 发布于贵州
  • 举报
Spider Stdio (采集工作站) 用户手册

 STYLEREF \l Heading 1 \* MERGEFORMAT Spider Studio (采集工作站) 用户手册  DATE \@ M/d/yyyy \* MERGEFORMAT 5/13/2017 Page  PAGE 8 of  NUMPAGES 8  STYLEREF \l Heading 1 \* MERGEFORMAT Spider Studio (采集工作站) 用户手册  DATE \@ M/d/yyyy \* MERGEFORMAT 5/13/2017 Page  PAGE 1 of  NUMPAGES 8 Spider Studio (采集工作站) 用户手册 Contents  TOC \o 1-3 \h \z \u  HYPERLINK \l _Toc351217923 Spider Studio (采集工作站) 用户手册  PAGEREF _Toc351217923 \h 1  HYPERLINK \l _Toc351217924 一、软件的基本使用  PAGEREF _Toc351217924 \h 2  HYPERLINK \l _Toc351217925 二、采集代码指南  PAGEREF _Toc351217925 \h 5  一、软件的基本使用 运行Spider Studio, 打开程序主界面: 各模块介绍如下: 在代码区写下采集的代码(c#): 如果觉得代码区域太小,可以双击”脚本”那个蓝色区域: 这时就弹出了一个较大的脚本弹出窗,以方便用大窗口写代码: 点击中间菜单栏的 运行 按钮,开始采集: 可以点击 停止 按钮停止采集。 二、采集代码指南 下面通过一个例子来介绍下怎么写采集的代码(c#): 实例 ///这个脚本是采集百度百科上的内容,可直接copy到Spider Studio里运行 //定义要采集的网址 string url = /fenlei/%E5%9F%BA%E6%9C%AC%E7%89%A9%E7%90%86%E6%A6%82%E5%BF%B5; Default.Navigate(url); //打开网址, Default为缺省的浏览窗口 Default.Ready(60); //等待加载完成,参数60指最长等待60秒 //如果没有名为Detail的浏览窗口,创建一个 var bDetail = BrowserManager.Has(Detail) ? BrowserManager.Get(Detail) : BrowserManager.Create(Detail,about:blank); while (true) { //获取多个结点(列表)内容 var titles = Default.SelectNodes(div.grid-list.grid-list-spotullidiv.lista); foreach (var title in titles) { string key = title.Text(); //取标题 string link = title.Attr(href); //取link值 bDetail.Navigate(link); //用新的浏览窗口打开这个网页 bDetail.Ready(60); //获取单个结点内容 var body = bDetail.SelectSingleNode(div#sec-content0); if (!body.IsEmpty()) //判断是否为空 { //取这结点的HTML内容 string sBody = body.Html().Replace(, ); ///下面是保存到DB中,这里注释掉 //string sInsert = string.Format(insert into netSchool.dbo.knowledge (title, body,lin

文档评论(0)

1亿VIP精品文档

相关文档