基于Hadoop的农业信息资源分布式检索研究与实现-计算机应用技术专业论文.docxVIP

基于Hadoop的农业信息资源分布式检索研究与实现-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop的农业信息资源分布式检索研究与实现-计算机应用技术专业论文

另月数据 另月数据 研究生学位论文独创性 prl9J和版权使周授权书 独创铃声附 草人卢咧 g 所里变的治I皂 4、人tE E于i,lí掏导 F 远行的研究 l 作汲取得I1J吁吁 fiIl . 据我所切.政了 ? P斗争坤j加以中I.fH;l致汹的地h 外.论立中 4、包含他人已锐k衰成撰写 过的网究确渠.也早包贪均获得 II它tI育析。仰的学仪J!J.丛书 Iuttm过的材料.对 ì宜的 完成提Vtcl到岛的有且J 人员已在沧芷巾 fH明确的民明J.表示创怠 !!{N立fT ll(签字), 跑堂 笼子 11别. 兰坠立:.!j. 学位论文版权使用援权书 ; 乍仔沦芷 (i 吉完全了 (宁位)有关仅归 使l昂干it守论文的规定,窍生过何i百井l再回 京11关部门J!J.lII.肉j呈交论A 的FII剧本和l电{版本-允iHHi由金饲和借阅 4人授领(T 饺尸j以将学位i;t的令部瑞雪u分内在铺i\ fiJ:.敛l\;J荤主茸Ii险章 . oJ 以采用能印、绍自J l1.IG扫描等 u 剖T?lI.( 古 矿硝学 论立. r..)1时提战中间科学技 信息研究所将 ι学r (1? 立技法?; (巾国学位ii?::íC会.. 位.u.:ln. ,坪 cl网络1均1i合公众提供情.!J.I蓝 ?r I í\(丽的 学位ìl!:t在所造后边时」、jQ仅在』 4、阳Iê j:N:肌足。/ n ,畸假冒,; (!l:幸自则以为 2 ?他以ft击机·棉雪 甚丰 1肌均1于. ?Fl习 t 机制 在于日制 t bH: I 万方数据 万方数据 摘要 随着农业现代化的发展,农业用户对于农业信息资源产生了巨大的需求,近年来由 于云计算、物联网、移动通信等高新技术的广泛应用以及政府和企业对农业信息化建设 的积极倡导和推动,我国的农业信息化建设发展迅速,产生了各类农业网站,提供了各 种丰富多彩的农业信息,为农业用户带了极大的便利,用户可通过搜索引擎方便地检索 所需要的农业信息。但是,日益增长的农业信息也给搜索引擎和农业信息化建设带来了 极大的挑战: 第一,农业信息化基础设施配置普遍较低、且较为分散,需要在现有的基础上对其 进行整合,达到资源的合理化和最大化利用;第二,面对海量的农业信息数据,传统的 集中式存储方式对服务器设备配置要求越来越高,昂贵的采购费用不利于农业信息化的 发展;第三,如何从海量的农业信息数据中快速准确地检索到用户所需要的信息,这给 搜索引擎提出了更高的要求。 针对目前存在的以上问题,对农业用户的检索需求进行调研分析,结合目前国内外 垂直搜索引擎的研究现状,本文对农业垂直搜索引擎进行了研究,研究内容主要有: 将 Hadoop 大数据技术引入农业信息检索工作中,在大规模廉价机器集群上采用开 源分布式平台 Hadoop 作为基础架构,利用开源分布式数据库 HBase 解决海量农业数据 的存储问题,在深入研究 Lucene 全文检索工具包的基础上,结合 MapReduce 分布式计 算模型在 Hadoop 上设计实现农业信息资源的分布式存储、分布式索引和分布式检索。 本文主要创新点包括: (1) 设计了海量农业信息资源在 HBase 中的存储模式,解决了大规模数据集的高效 分布式存储和实时随机读/写问题。 (2) 改变了 Hadoop 现有的文档随机划分方案,运用 Mahout 机器学习框架在 Hadoop 上对海量文档进行分类,按照分类建立分布式索引,根据用户意图对索引进行检索从而 减少了检索时启动的索引节点的数量,节省了系统开销,提高了检索效率。 (3) 运用 MapReduce 分布式计算模型结合 Lucene 原有索引机制实现了分布式索引 和检索;并且改变了 Lucene 原有的在磁盘上建立索引的方法,设计了先将内存作为索 引缓冲区然后将索引写入磁盘的建立索引的方法,提高了索引效率。 关键字:Hadoop、Lucene、分布式、HBase、聚类、缓存 I Abstact Along with the development of modern agriculture, agricultural users have an enormous demand for agricultural information resources .In recent years due to the Wide range of applications of high-tech such as cloud computing, networking, mobile communications, as well as the government’s and enterprises’ advocacy and promotion acti

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档