Error Running Namenode Container When Setting Up Hadoop Clustering on EC2

Question

I have created 8 Docker containers on an EC2 Ubuntu 20.04 instance as shown in the picture above. While all the other containers are running fine, the Namenode container keeps producing the following error infinitely and does not work properly: Re-format filesystem in Storage Directory root= /opt/hadoop/dfs/name; location= null ? (Y or N) Invalid input:

Dockerfile for Namenode

FROM hadoop-spark-base

HEALTHCHECK CMD curl -f http://namenode:9870/ || exit 1

ADD hdfs-site.xml $HADOOP_CONF_DIR

RUN mkdir $HADOOP_HOME/dfs/name

ADD start.sh /start.sh
RUN chmod a+x /start.sh

EXPOSE 9000 9870

CMD ["/start.sh", "/opt/hadoop/dfs/name"]

start.sh

NAME_DIR=$1
echo "Namenode DIR : $NAME_DIR"

$HADOOP_HOME/bin/hdfs namenode -format

$HADOOP_HOME/bin/hdfs --config $HADOOP_CONF_DIR namenode

hdfs-site.xml




  
    dfs.namenode.name.dir
    file:///opt/hadoop/dfs/name
  
  
    dfs.blocksize
    10485760
  
  
    dfs.client.use.datanode.hostname
    true
  
  
    dfs.namenode.rpc-bind-host
    0.0.0.0
  
  
    dfs.namenode.servicerpc-bind-host
    0.0.0.0
  
  
    dfs.namenode.http-bind-host
    0.0.0.0
  
  
    dfs.namenode.https-bind-host
    0.0.0.0

core-site.xml


  
    fs.defaultFS
    hdfs://namenode:9000/
    NameNode URI

yarn-site.xml


 
    yarn.nodemanager.aux-services
    mapreduce_shuffle
 
 
    yarn.nodemanager.aux-services.mapreduce_shuffle.class
    org.apache.hadoop.mapred.ShuffleHandler
 
 
    yarn.resourcemanager.hostname
    resourcemanager
 
 
    yarn.nodemanager.local-dirs
    /opt/hadoop/yarn/data
 
 
    yarn.nodemanager.logs-dirs
     /opt/hadoop/yarn/data
 
 
 
    yarn.timeline-service.enabled
    true
 
 
     yarn.resourcemanager.system-metrics-publisher.enabled
     true
 
 
     yarn.timeline-service.generic-application-history.enabled
     true
 
 
     yarn.timeline-service.leveldb-timeline-store.path
     /opt/hadoop/yarn/timeline
 
 
     yarn.timeline-service.hostname
     yarntimelineserver

docker-compose.yml

version: "3.7"

x-datanode_base: &datanode_base
  image: hadoop-datanode
  networks:
    - bridge

services:
  namenode:
    image: hadoop-namenode
    container_name: namenode
    hostname: namenode
    ports:
      - "9098:9870" # namenode web UI
    volumes:
      - namenode:/opt/hadoop/dfs/name # namenode data mount
      - namenode:/opt/spark/eventLog # spark history log data mount 
      - namenode:/opt/hadoop/yarn/timeline # yarn timeline data mount
    networks:
      - bridge

  datanode01:
    <<: *datanode_base
    container_name: datanode01
    hostname: datanode01
    volumes:
      - datanode01:/opt/hadoop/dfs/data
      - datanode01:/opt/hadoop/yarn/data
      - namenode:/opt/spark/eventLog
  datanode02:
    <<: *datanode_base
    container_name: datanode02
    hostname: datanode02
    volumes:
      - datanode02:/opt/hadoop/dfs/data
      - datanode02:/opt/hadoop/yarn/data
      - namenode:/opt/spark/eventLog
  datanode03:
    <<: *datanode_base
    container_name: datanode03
    hostname: datanode03
    volumes:
      - datanode03:/opt/hadoop/dfs/data
      - datanode03:/opt/hadoop/yarn/data
      - namenode:/opt/spark/eventLog

  resourcemanager:
    image: resourcemanager
    container_name: resourcemanager
    hostname: resourcemanager
    ports:
      - "9099:8088"
    networks:
      - bridge

  yarntimelineserver:
    image: yarn-timelineserver
    container_name: yarntimelineserver
    hostname: yarntimelineserver
    ports:
      - "9096:8188"
    networks:
      - bridge
    volumes:
      - namenode:/opt/hadoop/yarn/timeline

  sparkhistoryserver:
    image: spark-historyserver
    container_name: sparkhistoryserver
    hostname: sparkhistoryserver
    ports:
      - "9093:18080"
    depends_on:
      - namenode
      - resourcemanager
    volumes:
      - namenode:/opt/spark/eventLog
    networks:
      - bridge

  zeppelin:
    image: zeppelin
    container_name: zeppelin
    hostname: zeppelin
    ports:
      - "9097:8080"
    networks:
      - bridge
    volumes:
      - namenode:/opt/spark/eventLog
      - /env/hadoop-eco/hadoop/zeppelin/notebook:/zeppelin-0.10.1-bin-all/notebook
      - /home/ec2-user/testdata:/testdata

volumes:
  namenode:
  datanode01:
  datanode02:
  datanode03:

networks:
  bridge:

Grant access permissions to volumes.
'leveldb-timeline-store.ldb' directory exists in the NAME_DIR:

Delete that DIR and proceed with formatting.
Or, if there are no other files except for the mentioned one, proceed with formatting.

In the 'start.sh' script, add responses such as 'y', 'yes', 'Y', or 'echo 'y'' to automate confirmation prompts.

Error Running Namenode Container When Setting Up Hadoop Clustering on EC2

Answers (0)

Related Questions