Spark not saving the dataframe as a paraquet file

Question

Trying to save the spark dataframe as a paraquet file.But unable to achieve ,due to the Exception below.Kindly guide me,if I am missing something.The dataframe has been constructed from the kafka stream rdds.

dataframe.write.paraquet("/user/space")

Exception Stack:

Exception in thread "streaming-job-executor-0" java.lang.NoClassDefFoundError: org/apache/spark/sql/execution/datasources/FileFormat
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
at java.net.URLClassLoader.defineClass(URLClassLoader.java:467)
at java.net.URLClassLoader.access$100(URLClassLoader.java:73)
at java.net.URLClassLoader$1.run(URLClassLoader.java:368)
at java.net.URLClassLoader$1.run(URLClassLoader.java:362)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:361)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:370)
at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
at java.util.ServiceLoader$1.next(ServiceLoader.java:480)
at scala.collection.convert.Wrappers$JIteratorWrapper.next(Wrappers.scala:42)
at scala.collection.Iterator$class.foreach(Iterator.scala:727)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
at scala.collection.TraversableLike$class.filter(TraversableLike.scala:263)
at scala.collection.AbstractTraversable.filter(Traversable.scala:105)
at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:59)
at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:219)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:148)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:139)
at org.apache.spark.sql.DataFrameWriter.parquet(DataFrameWriter.scala:334)
at KafkaHbaseWrite$$anonfun$main$1.apply(KafkaHbaseWrite.scala:309)
at KafkaHbaseWrite$$anonfun$main$1.apply(KafkaHbaseWrite.scala:280)
at org.apache.spark.streaming.dstream.DStream$$anonfun$foreachRDD$1$$anonfun$apply$mcV$sp$3.apply(DStream.scala:661)
at org.apache.spark.streaming.dstream.DStream$$anonfun$foreachRDD$1$$anonfun$apply$mcV$sp$3.apply(DStream.scala:661)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1$$anonfun$apply$mcV$sp$1.apply$mcV$sp(ForEachDStream.scala:50)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1$$anonfun$apply$mcV$sp$1.apply(ForEachDStream.scala:50)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1$$anonfun$apply$mcV$sp$1.apply(ForEachDStream.scala:50)
at org.apache.spark.streaming.dstream.DStream.createRDDWithLocalProperties(DStream.scala:426)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1.apply$mcV$sp(ForEachDStream.scala:49)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1.apply(ForEachDStream.scala:49)
at org.apache.spark.streaming.dstream.ForEachDStream$$anonfun$1.apply(ForEachDStream.scala:49)
at scala.util.Try$.apply(Try.scala:161)
at org.apache.spark.streaming.scheduler.Job.run(Job.scala:39)
at org.apache.spark.streaming.scheduler.JobScheduler$JobHandler$$anonfun$run$1.apply$mcV$sp(JobScheduler.scala:224)
at org.apache.spark.streaming.scheduler.JobScheduler$JobHandler$$anonfun$run$1.apply(JobScheduler.scala:224)
at org.apache.spark.streaming.scheduler.JobScheduler$JobHandler$$anonfun$run$1.apply(JobScheduler.scala:224)
at scala.util.DynamicVariable.withValue(DynamicVariable.scala:57)
at org.apache.spark.streaming.scheduler.JobScheduler$JobHandler.run(JobScheduler.scala:223)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.execution.datasources.FileFormat
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 50 more

The snaphot of the Pom.xml used:


    4.0.0

    Paymentprocessor
    research
    0.0.1-SNAPSHOT
    jar


    research

    
        1.8
        1.8
        UTF-8
        2.10
        2.10.6
        1.6.1
        2.10
        2.15.2

    

    
        
            central

            Maven Repository
            https://repo1.maven.org/maven2
            
                true
            
            
                false
            
        
        
            scala-tools.org
            Scala-tools Maven2 Repository
            http://scala-tools.org/repo-releases
        
        
            mapr-releases
            http://repository.mapr.com/maven/
            
                false
            
            
                true
            
        

    
    
    
            org.scala-lang
            scala-compiler
            ${scala.version}
        
        
            org.scala-lang
            scala-library
            ${scala.version}
        

        
            org.apache.spark
            spark-core_${scala.tools.version}
            ${spark.version}
            provided
        

        
            org.apache.spark
            spark-sql_${scala.tools.version}
            ${spark.version}
            provided
        
        
            org.apache.spark
            spark-streaming_${scala.tools.version}
            ${spark.version}
            provided
        

        

        
            org.scalatest
            scalatest
            1.2
            test
        


        
            log4j
            log4j
            1.2.15
            
                
                    com.sun.jmx
                    jmxri
                
                
                    com.sun.jdmk
                    jmxtools
                
                
                    javax.jms
                    jms
                
            
        
        
            net.sf.jopt-simple
            jopt-simple
            3.2
        
        
            org.slf4j
            slf4j-simple
            1.6.4
        


        
            com.yammer.metrics
            metrics-core
            2.2.0
        
        
            com.yammer.metrics
            metrics-annotation
            2.2.0
        
        
            org.easymock
            easymock
            3.0
            test
        




        
            org.apache.spark
            spark-mllib_${scala.tools.version}
            ${spark.version}
        
        
            org.apache.commons
            commons-csv
            1.1
        
        
            com.jsuereth
            scala-arm_2.10
            1.4
        
        
            org.apache.hbase
            hbase-server
            1.2.3
        
        
            com.101tec
            zkclient
            0.7
        

        
            org.apache.spark
            spark-streaming-kafka-producer_2.10
            1.6.1
        
        
        
            org.apache.kafka
            kafka_2.10
            0.8.2.2
        

        
            org.apache.spark
            spark-streaming-kafka_2.10
            1.6.1
        


        
            org.apache.kafka
            kafka-clients
            0.10.0.0
        

        
            org.apache.hbase
            hbase-client
            1.2.3
        

        
            org.apache.parquet
            parquet-hadoop
            1.9.0
        
        
            org.apache.spark
            spark-hivecontext-compatibility_2.10
            2.0.0-preview
        

    


    
        src/main/scala
        src/test/scala
        
            
                org.scala-tools
                maven-scala-plugin
                2.15.2
                
                    
                        
                            compile
                        
                    
                
            

            
                org.apache.maven.plugins
                maven-eclipse-plugin
                2.8

Code snippet:

 val messagesDStream: InputDStream[(String, String)] = { 

          KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)     
        }



        val valuesDStream: DStream[String] = messagesDStream.map(_._2)

         /*Construct RDD from Kafka*/  

        println("Count value"+valuesDStream.count())

        /*Construct RDD from Kafka*/       
          valuesDStream.foreachRDD { rdd =>
          // There exists at least one element in RDD
          if (!rdd.isEmpty) {
            val count = rdd.count
            println("count received " + count)
            val sqlContext = SQLContext.getOrCreate(rdd.sparkContext)


            import sqlContext.implicits._
            import org.apache.spark.sql.functions._  


            val cdrDF = rdd.map(CallCreditCardRecord.parseCallCreditCardRecord).toDF()
           val cardRDD = cdrDF.cache()
            println("PRinting")

           cdrDF.registerTempTable("Card")
           cdrDF.printSchema()
           cdrDF.show()

            cdrDF.write.format("parquet").save("/usr/local/Cellar/hadoop/hdfs/tmp/nm-local-dir/CreditCardRecord.parquet")

          }
        }

    ssc.start()
    //ssc.awaitTermination()

    ssc.stop(stopSparkContext = true, stopGracefully = true)

Tzach Zohar · Accepted Answer

You seem to be mixing different Spark versions - most likely, your cluster (master / workers) runs one Spark version while your driver application another, therefore you're getting a ClassNotFoundException for a class that only exists in one of these versions.

Specifically, the class org.apache.spark.sql.execution.datasources.FileFormat was only created ~2 weeks ago (by this commit) and isn't part of any official Spark release yet: are you using Spark's "latest master" version in one of your components? If so - either use it in all components (but be prepared to see some bugs and rough edges), or make sure all of your code is compiled and executed with one official version.

EDIT (after pom file posted): your pom file contains two different Spark versions - 1.6.1 for most dependencies, and 2.0.0-preview for the last one:


  org.apache.spark
  spark-hivecontext-compatibility_2.10
  2.0.0-preview

You should remove this dependency (it's not needed in 1.6.1).

Spark not saving the dataframe as a paraquet file

Answers (2)

Related Questions