基于云计算的大数据信息检索技术研究.docVIP

下载本文档

9
0
约4.51千字
约 7页
2016-09-24 发布于北京
举报
版权申诉

基于云计算的大数据信息检索技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于云计算的大数据信息检索技术研究.doc

基于云计算的大数据信息检索技术研究　　摘要：随着云计算的快速发展，信息呈现爆炸式增长。廉价的云存储和计算能力，加速了大数据的产生，也使得解决大数据的信息收集和信息检索成为必然。大数据超过50%是非结构化数据，所以它们绝大部分以文件的形式存储。大数据被分成许多块存储在块服务器中，同时也产生存储在主服务器上的相应元数据。该文就如何收集大数据的web-url及关键词，又如何检索其中的信息，作了探讨。　　关键词：云计算；大数据；信息收集；检索机制　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2014）10-2388-03 　　Abstract： With the rapid development of cloud computing， information increases rapidly. Cheap cloud storage and computing accelerates the data’s generation. It also makes that the solution to large data information collection and information retrieval has become inevitable. Over 50 percent of large data is non-structured， so the majority of them are stored as files. Big data is divided into many blocks stored in a block server. And at the same time it also generates the corresponding metadata stored on the master server. This article discussed on how to collect web-url and its keyword of big data and how to retrieve its information. 　　Key words： cloud computing； big data； information collection； retrieval mechanism 　　随着云服务的快速增长，越来越多的个人和企业把业务迁移到在线应用。在线的贸易，社交网络，自动传感系统，移动设备的应用，以及科学仪器的使用等产生了大量的数据。其中社交网络（音频、视频和图片等）和电子商务的应用使得数据增长极为迅速，这些数据可能需要用GB、TB、PB，EB，甚至 ZB才能描述。那么什么是大数据呢？云计算如何正确地处理它呢？如何从这些海量的数据中获取有用的信息呢？如果能从这些信息中获取日常生活必要的有用信息，无疑将极大便利整个人类社会。那么大数据也将具有巨大的价值。因此，对云计算中大数据的信息收集和信息检索将会成为一个热点。　　1 大数据的存储特征及元数据　　大数据是随着云计算的超级计算能力而产生的。大数据指的是：大量的结构化和半结构化的数据。它有四个特征。首先，体积大（Volume），第二是数据类型的多样化（Variety），第三是价值密度低（Value），第四是有快速处理的能力（Velocity）。大数据的这四个特征表明了他们的存储、收集和检索有别于传统的方式。　　如果用传统的关系数据库保存大数据，那么既耗时又耗钱，实现起来相当麻烦。超过50%的大数据是非结构化的数据，它是以文件形式存储的。目前，基于云计算的集群文件系统已成为了大数据的传输中心了。现在，云计算中的文件系统的存储技术主要有GFS和HDFS，以下GFS [1] 系统阐释了大数据的存储机制，如图1所示。　　集群文件系统的基本思想是：一个大数据文件被划分成许多块。块数据存储在块服务器中，每个块有相应的元数据。元数据存储在主服务器中。主服务器保存元素据的三种主要类型：文件和块的命名空间；块的映射文件；每个块数据备份的位置。以上的元数据存储在主服务器器的存储器中。命名空间元数据被用于维护文件系统的命名空间，通过查询命名空间能查询指定的文件和目录路径的属性信息，该路径指向了相应的内容。另一种元数据记录了文件存储的位置信息，通过查询该信息，就能知道数据块位置的偏移量。关键词元数据被组织成动态的弹性的索引结果。由于非直接描述的文本信息如果被误用，将误导搜索引擎工作。所以很多大公司如谷歌对元数据的准确描述相当重视。　　2 Web信息收集与信息检索　　价值密度与信息总量的大小成反比。在成千上亿，甚至千亿的页面中，满足自己需求的页面通常只有几个至几千个。