数学公式搜索索引构建及工作进展.pptVIP

下载本文档

6
0
约1.88千字
约 13页
2017-09-13 发布于重庆
举报
版权申诉

数学公式搜索索引构建及工作进展.ppt

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1.Nutch介绍 2.Nutch搭建搜索及演示 1.Nutch介绍构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成，该软件被大家成为网络蜘蛛（Spider）。网络蜘蛛实际上是一个Socket程序，采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理，就形成能够检索的信息。 1.Nutch介绍 Nutch是一个纯Java程序，平台无关性。用户可通过源码对Nutch进行修改和重新发布，通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分：爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。 1.Nutch介绍 Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表，不断地自动下载页面，直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。网络蜘蛛的存在使Nutch区别与Lucene，是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储，便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页，并不关心后续系统如何处理。 1.Nutch介绍网页的下载任务可以使用Crawl命令独立完成，也可使用底层的admin、inject、generate、fetch和updatedb命令组合完成。而Crawl命令的内部也是调用底层命令的对应函数实现的。 admin：用来创建一个新的Web数据库。建成的数据库包含目录和数据存储结构，初始数据状态为空，需要后续命令来填充内容。其中的URL数据库，用来存放相关信息。 inject：添加数据下载的入口链接。首先读取给定的纯文本格式文件，获取URL列表，作为入口地址添加到已有的Web数据库中。 generate：生成待下载的URL列表。按照Web数据库格式提取未下载的URL，以fetchlist形式给出，为下载做好准备。 1.Nutch介绍 fetch：按照HTTP协议访问互联网，获取网页的数据具体内容。下载过程由下载列表和操作参数控制，直到下载完毕。 updatedb：用来添加网页下一层链接的URL。从已经下载的文件中获取URL链接，更新Web数据库，添加到已有的Web数据库。分析提取页面内容 Generate提取待下载列表生成下载任务 Inject添加入口URL地址 Createdb创建Web数据库索引检索 fetch下载模块网页页面内容待下载URL列表 Web 页面正文 updatedb下级URL链接 URL列表文件获取页面图1 Nutch网络蜘蛛结构图 1.Nutch介绍 1.Nutch介绍下载后的数据存储主要以目录文件形式存放。具体内容包括Web数据库、数据段（segments）和数据索引。 Web数据库（web db）：即URL数据库，存储网络爬虫抓取的网页信息和网页之间的链接信息。数据段（segments）：存放网络爬虫每一次抓取使用的待下载列表、已获得的网页内容和本次内容的索引。数据索引：是数据段索引的合并和汇集。索引的数据包含了系统所有页面，以倒排索引的形式组织。 CrawlTool工具 Web 网页页面内容 nutch-site.xml文件输出 crawl-urlfilter.txt文件待下载URL列表文本下载图2 Nutch网络蜘蛛的工作机制 1.Nutch介绍 2.Nutch搭建搜索及演示 Ubuntu 11.04 Jdk 1.6 Nutch 1.2 Tomcat 6.0 2.Nutch搭建搜索及演示命令：bin/nutch crawl urls –dir localweb –depth 2 –topN 30 –threads 2 -dir，指定存放爬行结果的目录 -depth 2，表明需要抓取的页面深度为2层内容 -topN 30，指明之抓取每一层的前N 个URL，本次为取每一层的前30个页面 -threads 2，指明Crawl采用两个下载线程进行下载参考：《Lucene+Nutch搜索引擎开发》 /view/4ff26cee102de2bd960588cc.html /share/detail