面向大规模日志文件的数据处理方法研究及应用-计算机技术专业毕业论文.docxVIP

  • 2
  • 0
  • 约5.91万字
  • 约 68页
  • 2019-05-14 发布于上海
  • 举报

面向大规模日志文件的数据处理方法研究及应用-计算机技术专业毕业论文.docx

摘 摘 要 万方数据 万方数据 摘 要 时至今日,大数据时代到来的风暴革新了我们的生活、工作和思维,渗透在 各个工业、商业和科研领域当中。在科学研究(天文学、生物学、高能物理等)、 互联网、电子商务、计算机仿真等应用中数据呈现快速增长的趋势,特别是在科 学研究中每年新数据的增量为 15PB 左右;大数据时代带来两大趋势:数据不断 膨胀和数据深度分析。因此近年来对数据的分析和挖掘已经成为计算机研究领域 中一个炙手可热的话题。大数据诸如突出的各种特性,已经使得传统的数据 ETL、 数据挖掘的方式都不再适用。面对密集型、复杂混合型的数据需要有更高效的监 控方案。数据 ETL 主要是将分散的、异构源中的数据如关系型数据、稠密性数 据进行提取、清洗和加载,最后成为联机分析处理、数据挖掘的的基础。 目前对海量日志处理的方案和开源软件相继出现,基于 Hadoop 的应用已经 遍地开花,尤其是在互联网领域。分布式文件系统 HDFS 和并行计算模型 MapReduce 作为 Hadoop 的核心组件,从存储模型和计算模型都具有更高的容错 性、更强的扩展性,为海量日志的处理提供了很好的运行平台保障。在数据存储 中采用诸如 HBase 的非关系型数据库,以此为基础深入研究适应大规模网络日 志文件的数据处理技术,主要围绕数据监控、数据清洗、数据抽取、数据装载、 挖掘应用开展研究论述。仅仅对海量日志进行预处理是不足以完全达到海量数据 处理的能力,还需要结合相关的数据挖掘算法研究,基于上述原因,本文将 Hadoop 平台技术运用到数据挖掘中,对于能够实现并行化的算法,结合了 MapReduce 并行计算模型,将其移植到 Hadoop 平台上,提高了海量数据处理的 性能。 本文的研究重点总结如下: 一、Hadoop 生态系统中的开源子项目-Zookeeper,本文在研究中利用其分 布式协调服务、分布式锁机制和实时反馈等相关技术,提出了实时计算框架-通 用数据采集模型。该数据模型采用三层设计架构,作为单点可靠服务,在不影响 单机主体正常服务的情况下,提供“无感知”的服务部署,为日志的实时采集提 供了高效的策略。 二、依托 Hadoop 平台的数据组织、读写原理,针对海量数据的特点,设计 并实现了基于 Chukwa 的大规模日志智能监测方法。极大的弥补了 MapReduce 只能处理大文件数据的缺陷,也进一步提高了日志处理的灵活性和扩展性。 三、研究 MapReduce 并行计算模型,提出一种基于 M-R 计算模型的遗传聚 类并行算法(Clustering Genetic parallel Algorithm based on M-R model, M-R CGPA)。通过使用遗传算法来弥补聚类分析在筛选聚类中心不稳定而影响聚类结 I II万方数据 II 万方数据 果的缺陷,然后依靠 M-R 并行计算模型来加速聚类分析的收敛速度。并且通过 实验数据证明了的算法的可行性、并行化加速比的优越性。 目前通用数据采集模块应用于百度搜索引擎等产品线当中,为各个产品线和 优化项目提供了基础数据和决策支持的保障,为大数据平台的整体建设提供强有 力的支撑。基于 Chukwa 的大规模日志智能监测方法目前应用广告智能监测、商 业分析等领域中。 关键字:日志采集;ETL;分布式计算;MapReduce;Hadoop; 万方数据 万方数据 Abs Abstract II万方数据 II 万方数据 Abstract Today, the storm of big data era have been revolutionized our lives, work and thinking, penetration in various industrial, commercial or scientific field. In the application of scientific research (such as Astronomy, biology, high-energy physics), Internet, electronic commerce data, computer simulation, showing the trend of rapid growth of data, especially the annual increment in the scientific research of new data is about 15PB. The age of big data has brought two major trends: the data expansion and the depth of data analysis. So in rece

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档