How to write an avro file from csv file with Spark?

Question

I am faced with a NullPointerException when i try to write avro file from a DF created from csv files :

 public static void main(String[] args) {
    SparkSession spark = SparkSession
        .builder()
        .appName("SparkCsvToAvro")
        .master("local")
        .getOrCreate();

    SQLContext context = new SQLContext(spark);

    String path = "C:\git\sparkCsvToAvro\src\main\resources";
    DataFrameReader read = context.read();
    Dataset csv = read.csv(path);
    DataFrameWriter write = csv.write();
    DataFrameWriter format = write.format("com.databricks.spark.avro");
    format.save("C:\git\sparkCsvToAvro\src\main\resources\avro");
}

My pom.xml :


    UTF-8
    4.12
    2.1.0
    3.5.1
    1.8
    1.8
    3.2.0
    1.5.0
    2.1.0


...

    
        
            org.apache.maven.plugins
            maven-compiler-plugin
            ${maven-compiler-plugin.version}
            
                ${maven-compiler-plugin.source}
                ${maven-compiler-plugin.target}
            
        
    




    
        org.apache.spark
        spark-core_2.11
        ${spark-core.version}
    

    
        com.databricks
        spark-avro_2.11
        ${spark-avro.version}
    

    
        org.apache.spark
        spark-sql_2.11
        ${spark-sql.version}

And the exception stacktrace :

Driver stacktrace:
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1435)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1423)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1422)
at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1422)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802)
at scala.Option.foreach(Option.scala:257)
at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:802)
...
at java.lang.reflect.Method.invoke(Method.java:498)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)
Caused by: java.lang.NullPointerException
at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)
at org.apache.hadoop.util.Shell.runCommand(Shell.java:404)

I don't know what i do wrong ? Maybe the dependencies are not correct ? Or it's just a bad pratice i do ?

The npe is here :DataFrameWriter format = write.format("com.databricks.spark.avro"); format.save("C:\git\sparkCsvToAvro\src\main\resources\avro");

"format" is null i don't know why ?

Manish Saraf Bhardwaj · Accepted Answer

Way of parsing CSV in Spark 2.0 is

First initialize SparkSession object by default it will available in shells as spark

val spark = org.apache.spark.sql.SparkSession.builder
        .master("local")
        .appName("Spark CSV Reader")
        .getOrCreate;

Now use SparkSessions object to load CSV as DataFrame/DataSet

val df = spark.read
        .format("com.databricks.spark.csv")
        .option("header", "true") //reading the headers
        .option("mode", "DROPMALFORMED")
        .load("csv/file/path"); //.csv("csv/file/path") //spark 2.0 api

df.show()

Databricks provided library spark-avro, which helps us in reading and writing Avro data.

df.write.format("com.databricks.spark.avro").save(outputPath)

How to write an avro file from csv file with Spark?

Answers (1)

Related Questions