- 2
- 0
- 约5.91万字
- 约 68页
- 2019-05-14 发布于上海
- 举报
摘
摘 要
万方数据
万方数据
摘 要
时至今日,大数据时代到来的风暴革新了我们的生活、工作和思维,渗透在 各个工业、商业和科研领域当中。在科学研究(天文学、生物学、高能物理等)、 互联网、电子商务、计算机仿真等应用中数据呈现快速增长的趋势,特别是在科 学研究中每年新数据的增量为 15PB 左右;大数据时代带来两大趋势:数据不断 膨胀和数据深度分析。因此近年来对数据的分析和挖掘已经成为计算机研究领域 中一个炙手可热的话题。大数据诸如突出的各种特性,已经使得传统的数据 ETL、 数据挖掘的方式都不再适用。面对密集型、复杂混合型的数据需要有更高效的监 控方案。数据 ETL 主要是将分散的、异构源中的数据如关系型数据、稠密性数 据进行提取、清洗和加载,最后成为联机分析处理、数据挖掘的的基础。
目前对海量日志处理的方案和开源软件相继出现,基于 Hadoop 的应用已经 遍地开花,尤其是在互联网领域。分布式文件系统 HDFS 和并行计算模型 MapReduce 作为 Hadoop 的核心组件,从存储模型和计算模型都具有更高的容错 性、更强的扩展性,为海量日志的处理提供了很好的运行平台保障。在数据存储 中采用诸如 HBase 的非关系型数据库,以此为基础深入研究适应大规模网络日 志文件的数据处理技术,主要围绕数据监控、数据清洗、数据抽取、数据装载、 挖掘应用开展研究论述。仅仅对海量日志进行预处理是不足以完全达到海量数据 处理的能力,还需要结合相关的数据挖掘算法研究,基于上述原因,本文将 Hadoop 平台技术运用到数据挖掘中,对于能够实现并行化的算法,结合了 MapReduce 并行计算模型,将其移植到 Hadoop 平台上,提高了海量数据处理的 性能。
本文的研究重点总结如下:
一、Hadoop 生态系统中的开源子项目-Zookeeper,本文在研究中利用其分 布式协调服务、分布式锁机制和实时反馈等相关技术,提出了实时计算框架-通 用数据采集模型。该数据模型采用三层设计架构,作为单点可靠服务,在不影响 单机主体正常服务的情况下,提供“无感知”的服务部署,为日志的实时采集提 供了高效的策略。
二、依托 Hadoop 平台的数据组织、读写原理,针对海量数据的特点,设计 并实现了基于 Chukwa 的大规模日志智能监测方法。极大的弥补了 MapReduce 只能处理大文件数据的缺陷,也进一步提高了日志处理的灵活性和扩展性。
三、研究 MapReduce 并行计算模型,提出一种基于 M-R 计算模型的遗传聚 类并行算法(Clustering Genetic parallel Algorithm based on M-R model, M-R CGPA)。通过使用遗传算法来弥补聚类分析在筛选聚类中心不稳定而影响聚类结
I
II万方数据
II
万方数据
果的缺陷,然后依靠 M-R 并行计算模型来加速聚类分析的收敛速度。并且通过 实验数据证明了的算法的可行性、并行化加速比的优越性。
目前通用数据采集模块应用于百度搜索引擎等产品线当中,为各个产品线和 优化项目提供了基础数据和决策支持的保障,为大数据平台的整体建设提供强有 力的支撑。基于 Chukwa 的大规模日志智能监测方法目前应用广告智能监测、商 业分析等领域中。
关键字:日志采集;ETL;分布式计算;MapReduce;Hadoop;
万方数据
万方数据
Abs
Abstract
II万方数据
II
万方数据
Abstract
Today, the storm of big data era have been revolutionized our lives, work and thinking, penetration in various industrial, commercial or scientific field. In the application of scientific research (such as Astronomy, biology, high-energy physics), Internet, electronic commerce data, computer simulation, showing the trend of rapid growth of data, especially the annual increment in the scientific research of new data is about 15PB. The age of big data has brought two major trends: the data expansion and the depth of data analysis. So in rece
您可能关注的文档
- 面向典型任务的UUV空间运动规划方法研究-控制理论与控制工程专业毕业论文.docx
- 论自首认定中的若干疑难问题-法律专业毕业论文.docx
- 面向制药行业GMP压丸机外供料系统设计与分析-机械工程专业毕业论文.docx
- 空气泡沫驱替中的渗流场变化特征-石油与天然气工程专业毕业论文.docx
- 秘密分享方案及其在数字签名中的应用-概率论与数理统计专业毕业论文.docx
- 面向广域网的存储资源管理关键技术研究-计算机系统结构专业毕业论文.docx
- 黄淮海湿地典型挺水植物及群落对生态水文过程的响应-生物化学与分子生物学专业毕业论文.docx
- 马齿苋总黄酮分离组份缺氧神经保护作用及其机制研究-军事预防医学专业毕业论文.docx
- 黄芪对血吸虫性肝纤维化小鼠肝组织外周型苯二氮卓受体表达的影响-中医内科学专业毕业论文.docx
- 煤泥综合利用发电技术在黄陵矿区的应用研究-矿业工程专业毕业论文.docx
- 棉酚对细毛羊睾丸间质细胞和精液品质影响的研究-动物营养与饲料科学专业毕业论文.docx
- 骡鸭最佳配套系的筛选与遗传变异的RAPD分析-动物遗传育种与繁殖专业毕业论文.docx
- 脉通方对自发性糖尿病大鼠动脉内皮细胞及相关因素的影响-中医内科学专业毕业论文.docx
- 论转轨时期我国政府经济职能的界定研究-政治经济学专业毕业论文.docx
- 罗格列酮对阿霉素肾病大鼠肾小球硬化的保护作用-内科学专业毕业论文.docx
- 旅顺和平公园建设项目管理的研究-工商管理专业毕业论文.docx
- 考虑吸附解吸的受载含瓦斯煤渗流规律与气固动态耦合模型研究-矿业工程专业毕业论文.docx
- 面向机械振动监测的无线传感器网络自适应同步采集方法研究-机械电子工程专业毕业论文.docx
- 铝熔体与氢的相互作用-材料加工工程专业毕业论文.docx
- 面向身份识别的掌纹特征提取和匹配方法研究-计算机应用技术专业毕业论文.docx
最近下载
- SY_T 7295-2016 陆上石油天然气修井作业环境保护推荐作法.docx VIP
- 汉责文化打屁股.pptx VIP
- SY∕T 5557-2016 石油天然气钻采设备 固井成套装备.docx VIP
- SY∕T 7425-2018 石油天然气钻采设备 制氮注氮设备.docx VIP
- SY∕T 5067-2018 石油天然气钻采设备 钻修井用安全接头.pdf VIP
- SY-T6113-2023石油天然气钻采设备 修井用动力卡盘.pdf VIP
- 《弘传序》原文及译文.docx
- SY_T 5106-2019 石油天然气钻采设备 封隔器规范.docx VIP
- T_CPI 11037-2024 石油天然气钻采设备水力振荡器技术与应用规范.docx VIP
- 雪铁龙维修 手册 图DS_5LS_Owner_Book_ZH.pdf VIP
原创力文档

文档评论(0)