搜索引擎基本原理及实现技术方案.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页抓取 Jsoup.jar 官方网站 / 相关学习资料 /topic/1010581 /topic/1010582 getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得元素 用下面方法获得元素的数据: attr(String key) 获得元素的数据 attr(String key, String value) t设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html try?{?? ????????doc?=?Jsoup?? ????????????????.connect(urlStr)?? ????????????????.userAgent(?? ????????????????????????Mozilla/5.0?(Windows;?U;?Windows?NT?5.1;?zh-CN;?rv:5))?//?设置User-Agent?? ????????????????.timeout(5000)?//?设置连接超时时间?? ????????????????.get();?? ????}?catch?(MalformedURLException?e)?{?? ????????log.error(?e);?? ????????return?;?? ????}?catch?(IOException?e)?{?? ????????if?(e?instanceof?SocketTimeoutException)?{?? ????????????log.error(?e);?? ???????????????????????????????return?;?? ????????}?? ????????if(e?instanceof?UnknownHostException){?? ????????????log.error(e);?? ????????????return?;?? ????????}?? ????????log.error(?e);?? ????????return?;?? ????}?? system.out.println(doc.title());?? ????Element?head?=?doc.head();?? ????Elements?metas?=?head.select(meta);?? ????for?(Element?meta?:?metas)?{?? ????????String?content?=?meta.attr(content);?? ?Element?body?=?doc.body();?? ?Elements es = body.select(a); for (IteratorElement it = es.iterator(); it.hasNext();) { Element e = (Element) it.next(); href = e.attr(href); } 链接提取 a href=./gljg/gljg.htmlspan机关部处/span/a a href=/ target=_blankspan招生就业/span/a a href=../hzjlspan合作交流/span/a iframe id=ifNews scrolling=no allowtransparency=true frameborder=0 src=/service/CqutXw height=135/iframe option value=/工业和信息化部/option 提高爬虫效率 多线程抓取 优化存储结构 根据不同类型的链接分别制定抓取策略 实例说明 主要步骤 1.输入:种子页面网址、抓取深度、抓取线程数 2.根据初始url获取种子页面的内容 注:1)url的合法性(两种方法) a、判断url是否符合协议规则 b、判断url是否可以打开 while (counts = 3) { try { URL url = new URL(

文档评论(0)

123****6648 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档