Unable to read data from AWS S3 in Java Dataset for Spark

Question

I am trying to read data from aws s3 into dataset/rdd in Java but getting Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities. I am running Spark code in Java on IntelliJ, so added Hadoop dependencies as well in pom.xml

Below is my code and pom.xml file.

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.api.java.JavaSparkContext;

public class SparkJava {

    public static void main(String[] args){

        SparkSession spark  = SparkSession
                .builder()
                .master("local")
                .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")                  .config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "2")
                .config("fs.s3n.awsAccessKeyId", AWS_KEY)
                .config("fs.s3n.awsSecretAccessKey", AWS_SECRET_KEY)
                .getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
        String input_path = "s3a://bucket/2018/07/28/zqa.parquet";
        Dataset dF = spark.read().load(input_path); // THIS LINE CAUSES ERROR

    }
}

Here are the dependencies from pom.xml


    
        org.apache.spark
        spark-core_2.11
        2.3.1
    
    
        org.apache.spark
        spark-sql_2.11
        2.3.1
    
    
        org.apache.hadoop
        hadoop-aws
        3.1.1
    
    
        org.apache.hadoop
        hadoop-hdfs
        3.1.1

Any help will be really appreciated. Thanks in advance!

Atihska · Accepted Answer

Solved this by adding the flowing dependency:


    org.apache.hadoop
    hadoop-common
    3.1.1

Unable to read data from AWS S3 in Java Dataset for Spark

Answers (1)

Related Questions