分布式文件系统 HDFS

王誉睿 2019年09月15日 11次浏览
  1. HDFS概述及设计目标

    1. 非常巨大的分布式文件系统
    2. 运行在普通廉价的硬件上
    3. 易扩展、为用户提供性能不错的文件存储服务
  2. HDFS架构

    1. 1个master(NameNode/NN)带n个slaves(DataNode/DN)(比如hdfs、yarn、hbase都是这种架构)
    2. 一个文件会被拆分成多个block,比如blocksize:128M,那么130m分为2个block:1个128M,一个2M
    3. NN: 1.负责客户端请求的响应 2.负责元数据(文件名称、副本系数、block存放的DN)的管理
    4. DN: 1. 存储用户的文件对应的数据块(block)2. 要定期向NN发送给心跳信息,汇报本身及其所有的block信息,健康状况
    5. NameNode + N个DataNode 建议:NN和DN是部署在不同的节点上
  3. HDFS副本机制

    1. HDFS环境搭建
    2. HDFS shell
    3. Java API操作HDFS
    4. HDFS文件读写流程
    5. HDFS优缺点

    Hadoop 伪分布式安装步骤 :**

    1. jdk 安装

    解压:tar -zxvf jdk-7 u79-linux-x64. Tar. Gz -C ~/app

    添加到系统环境变量:~/. Bash_ profile

    export JAVA_ HOME=/home/hadoop/app/jdk1.7.0_ 79

    export PATH=$JAVA_ HOME/bin: $PATH

    使得环境变量生效:source ~/. Bash_ profile

    验证 java 是否配置成功:j ava -V

    1. 安装 ssh

    Ubuntu:

    sudo apt-get install ssh

    sudo apt-get install rsync

    Centos:

    sudo yum install ssh

    ssh-keygen -t rsa

    一直回车

    cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

    1. 下载并解压 hadoop

    下载:直接去 cdh 网站下载

    解压:tar -zxvf hadoop-2.6.0-cdh5.7.0. Tar. Gz -C ~/app

    1. hadoop 配置文件的修改(hadoop_ home/etc/hadoop)

    hadoop- env. Sh

    export JAVA_ HOME=/home/hadoop/app/jdk1.7.0_ 79