hadoop入门笔记

王誉睿 2019年09月15日 13次浏览

Hadoop是开源的软件

可靠的,可扩展的,分布式,的框架。

是一个分布式存储+分布式计算平台。

hadoop可以做什么?

搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务。

搜索引擎

日志分析

商业智能

数据挖掘

包括哪些模块:

Hadoop common:

hadoop HDFS:分布式文件系统

hadoop YARN:作业调度和集群资源管理

hadoop MapReduce:根据YARN框架之上并行处理大数据集的框架。

分布式文件系统HDFS:

  1. 源自谷歌GFS论文,2003年10月
  2. HDFS是GFS克隆版
  3. 特点:扩展性、容错性、海量数量存储
  4. 将文件切分成制定大小的数据块并以多副本的存储在多个机器上
  5. 数据切分、多副本、容错等操作对用户是透明的

资源调度系统YARN:

  1. 负责整个集群资源的管理和调度
  2. 特点:扩展性、容错性、多框架资源统一调度(2.x出来在yarn上跑非常多不同的框架)

分布式计算框架MapReduce

  1. 源自于google的Mapreduce,是Google的克隆版
  2. 特点:扩展性、容错性、海量数量离线处理(不能做实时处理)

hadoop优势:

高可靠性:

  1. 数据存储:数据块多副本
  2. 数据计算:重新调度作业计算

高扩展性:

  1. 存储/计算资源不够时,可以横向的线性扩展机器
  2. 一个集群中可以包含数以千计的节点

其他:

  1. 存储在廉价机器上的,降低成本
  2. 成熟的生态圈

Hadoop生态系统