数学公式搜索索引构建及工作进展.pptVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.Nutch介绍 2.Nutch搭建搜索及演示 1.Nutch介绍 构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成,该软件被大家成为网络蜘蛛(Spider)。网络蜘蛛实际上是一个Socket程序,采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理,就形成能够检索的信息。 1.Nutch介绍 Nutch是一个纯Java程序,平台无关性。用户可通过源码对Nutch进行修改和重新发布,通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分:爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 1.Nutch介绍 Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表,不断地自动下载页面,直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。 网络蜘蛛的存在使Nutch区别与Lucene,是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储,便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页,并不关心后续系统如何处理。 1.Nutch介绍 网页的下载任务可以使用Crawl命令独立完成,也可使用底层的admin、inject、generate、fetch和updatedb命令组合完成。而Crawl命令的内部也是调用底层命令的对应函数实现的。 admin:用来创建一个新的Web数据库。建成的数据库包含目录和数据存储结构,初始数据状态为空,需要后续命令来填充内容。其中的URL数据库,用来存放相关信息。 inject:添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL列表,作为入口地址添加到已有的Web数据库中。 generate:生成待下载的URL列表。按照Web数据库格式提取未下载的URL,以fetchlist形式给出,为下载做好准备。 1.Nutch介绍 fetch:按照HTTP协议访问互联网,获取网页的数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。 updatedb:用来添加网页下一层链接的URL。从已经下载的文件中获取URL链接,更新Web数据库,添加到已有的Web数据库。 分析提取页面内容 Generate提取待下载列表生成下载任务 Inject添加入口URL地址 Createdb创建Web数据库 索引检索 fetch下载模块 网页页面内容 待下载URL列表 Web 页面正文 updatedb下级URL链接 URL列表文件 获取页面 图1 Nutch网络蜘蛛结构图 1.Nutch介绍 1.Nutch介绍 下载后的数据存储主要以目录文件形式存放。具体内容包括Web数据库、数据段(segments)和数据索引。 Web数据库(web db):即URL数据库,存储网络爬虫抓取的网页信息和网页之间的链接信息。 数据段(segments):存放网络爬虫每一次抓取使用的待下载列表、已获得的网页内容和本次内容的索引。 数据索引:是数据段索引的合并和汇集。索引的数据包含了系统所有页面,以倒排索引的形式组织。 CrawlTool工具 Web 网页页面内容 nutch-site.xml文件 输出 crawl-urlfilter.txt文件 待下载URL列表文本 下载 图2 Nutch网络蜘蛛的工作机制 1.Nutch介绍 2.Nutch搭建搜索及演示 Ubuntu 11.04 Jdk 1.6 Nutch 1.2 Tomcat 6.0 2.Nutch搭建搜索及演示 命令:bin/nutch crawl urls –dir localweb –depth 2 –topN 30 –threads 2 -dir,指定存放爬行结果的目录 -depth 2,表明需要抓取的页面深度为2层内容 -topN 30,指明之抓取每一层的前N 个URL,本次为取每一层的前30个页面 -threads 2,指明Crawl采用两个下载线程进行下载 参考: 《Lucene+Nutch搜索引擎开发》 /view/4ff26cee102de2bd960588cc.html /share/detail

您可能关注的文档

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档