搜索引擎基本原理及实现技术方案.ppt

下载文档 降价啦

9
0
约7.75千字
约 43页
2016-06-12 发布于湖北
举报
版权申诉
保障服务

搜索引擎基本原理及实现技术方案.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网页抓取 Jsoup.jar 官方网站 / 相关学习资料 /topic/1010581 /topic/1010582 getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得元素用下面方法获得元素的数据： attr(String key) 获得元素的数据 attr(String key, String value) t设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html try?{?? ????????doc?=?Jsoup?? ????????????????.connect(urlStr)?? ????????????????.userAgent(?? ????????????????????????Mozilla/5.0?(Windows;?U;?Windows?NT?5.1;?zh-CN;?rv:5))?//?设置User-Agent?? ????????????????.timeout(5000)?//?设置连接超时时间?? ????????????????.get();?? ????}?catch?(MalformedURLException?e)?{?? ????????log.error(?e);?? ????????return?;?? ????}?catch?(IOException?e)?{?? ????????if?(e?instanceof?SocketTimeoutException)?{?? ????????????log.error(?e);?? ???????????????????????????????return?;?? ????????}?? ????????if(e?instanceof?UnknownHostException){?? ????????????log.error(e);?? ????????????return?;?? ????????}?? ????????log.error(?e);?? ????????return?;?? ????}?? system.out.println(doc.title());?? ????Element?head?=?doc.head();?? ????Elements?metas?=?head.select(meta);?? ????for?(Element?meta?:?metas)?{?? ????????String?content?=?meta.attr(content);?? ?Element?body?=?doc.body();?? ?Elements es = body.select(a); for (IteratorElement it = es.iterator(); it.hasNext();) { Element e = (Element) it.next(); href = e.attr(href); } 链接提取 a href=./gljg/gljg.htmlspan机关部处/span/a a href=/ target=_blankspan招生就业/span/a a href=../hzjlspan合作交流/span/a iframe id=ifNews scrolling=no allowtransparency=true frameborder=0 src=/service/CqutXw height=135/iframe option value=/工业和信息化部/option 提高爬虫效率多线程抓取优化存储结构根据不同类型的链接分别制定抓取策略实例说明主要步骤 1.输入：种子页面网址、抓取深度、抓取线程数 2.根据初始url获取种子页面的内容注：1）url的合法性（两种方法） a、判断url是否符合协议规则 b、判断url是否可以打开 while (counts = 3) { try { URL url = new URL(