- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Scale-up x Scale-out: A Case Study using Nutch/Lucene
Maged Michael, José E. Moreira, Doron Shiloach, Robert W. Wisniewski
IBM Thomas J. Watson Research Center
Yorktown Heights, NY 10598-0218
向上向外扩展:关于研究Nutch/Lucene的互操作性
摘要
在过去几年中,多处理系统多处理系统 对称多处理系统– 1机架相比,它有14个刀片插槽的刀片服务器。它也有多达两个管理单元, 4个交换机模块,四桥模块和四个高速交换机模块的空间。(在机架上交换机模块3与4和桥梁模块3与4均共享相同的插槽。)我们在每个机架配备两个1-Gbit/s以太网交换机模块和2个光纤通道交换机模块。
三种不同叶片中使用了我们的集群:JS21( PowerPC处理器),HS21 (英特尔Woodcrest处理器)和LS21( AMD Opteron处理器)。每一个刀片(JS21, HS21,或LS21)既有本地磁盘驱动器(73 GB的容量)也有双光纤通道的网络适配器。在光纤通道适配器,两个用于连接的刀片光纤通道交换机,都被插入机架。大约一半的集群(4底盘)组成JS21刀片。这是四处理器(双插槽,双核心)的PowerPC 970片,运行在2.5 GHz。每一个刀片有8GiB的内存。在本文中的结论报告中,我们着重关注这些JS21刀片。
DS4100存储子系统包括双存储控制器,每一个都配有2Gb/s的光纤通道接口,并且在主要抽屉中容纳了14个SATA驱动器。尽管每个DS4100是搭配一个专门的BladeCenter-H机架,但由于我们运行的光纤通道网络,集群中的任何刀片都可以可以查看到存储系统的每个逻辑单元。
Nutch / Lucene的工作量
Nutch / Lucene是一种执行搜索应用的框架。这是基于非结构化数据(网页)搜索的应用程序日益增多的表现。我们已经习惯了谷歌和雅虎这样开放互联网运作的搜索引擎。然而,搜索也是公司局域网、内部网络的一个重要的运作。Nutch / Lucene完全是基于Java和其代码的开源性。Nutch / Lucene,作为一个典型的搜寻工作,有三个主要部分组成:(1)检索,(2)索引,和(3)查询。在本文中,我们列出查询结果的组成部分。为了完整性,我们简要介绍了其他组成部分。
抓取操作是浏览和检索信息的网页,然后输入将要搜索的文本信息。这一套文件在搜索术语称为语料库。爬行可以同时在内部网络(内联网)以及外部网络(因特网)内执行。检索,尤其是在互联网,是一个复杂的工作。无论是有意还是无意,总有许多的网站难以检索到。检索的性能通常是被检索系统和被检索系统之间的网络带宽给制约着。
在Nutch / Lucene的搜索框架包含一个使用MapReduce编程模型的并行索引操作书面。MapReduce提供了一个方便的方式处理一个重要的(尽管有限)类,通过程序员在现实生活中的商业应用并行和容错性问题让他们关注问题域。MapReduce在2004年出版了谷歌网站,并迅速成为这类工作量分析的标准。MapReduce模式的并行索引操作如下。首先,将要建立的数据分割成大致相同大小的部分。每一部分,按照既定的方式进行处理,生成(键,值),其中KEY是查询索引关键字,value是包含关键字的一整套文档(和储存关键字的文档)。这相当于在地图阶段,用MapReduce 。在下一阶段,在减少的阶段,每一个减速任务收集所有对某一特定的关键字,从而产生一个单一的指数表的关键字。当所有的按键都处理后,我们有完整的关键字集作为整个数据集。
在大多数的搜索应用程序中,查询绝大多数代表着运算能力。执行查询功能的时候,索引格式被提交给搜索引擎,然后检索文件,得到最符合要求的结果。Nutch / Lucene的并行查询引擎的总体结构如图3所示。查询引擎部分包含一个或多个前台,一个或多个后台。每个后台都包含该分类完整的数据集。驱动作为外围用户的代表也是衡量查询性能的一个关键点,每秒查询(qps)。查询操作的方式如下:驱动程序提交特定查询(索引格式)的任意一个前台。前台紧接着分派查询任务给所有的后台。每个后台负责执行对数据段的查询并返回最符合查询要求的结果文件列表(通常是10个)。每个文件返回一个百分数值,以此量化查询匹配度。前台收集所有后台的回复两端产生一个单一的顶端文件列表(通常是10条最佳匹配结果)。一旦前台产生了该列表,它会练习后台根据索引目录检索文章的片段。只有顶端文件的片段会被检索。前台一次只能与一个后台建立联系,从后台
文档评论(0)