object not serializable org.apache.spark.SparkContext

Question

I was learning about broadcast variables in Spark so I tried to make use of it. I'm using spark-shell (Version 1.6.0). Following is my code:

scala> val pageurls = sc.parallelize(List(("www.google.com","Google"),("www.yahoo.com","Yahoo"))
pageurls: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[0] at parallelize at :27
  scala> val pageCounts = sc.parallelize(List(("www.google.com",90),("www.yahoo.com",10)))
  pageCounts: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[1] at parallelize at :27
  scala> val pageMaps = pageurls.collectAsMap
  pageMaps: scala.collection.Map[String,String] = Map(www.yahoo.com -> Yahoo, www.google.com -> Google)
  scala> val bMaps = sc.broadcast(pageMaps)
  bMaps: org.apache.spark.broadcast.Broadcast[scala.collection.Map[String,String]] = Broadcast(2)
  scala> bMaps.value
  res0: scala.collection.Map[String,String] = Map(www.yahoo.com -> Yahoo, www.google.com -> Google)
  scala> val newRdd = pageCounts.map{
 | case (url,count) => (url,bMaps.value(url),count)}
  newRdd: org.apache.spark.rdd.RDD[(String, String, Int)] = MapPartitionsRDD[2] at map at :35
  scala> newRdd.collect
  res1: Array[(String, String, Int)] = Array((www.google.com,Google,90), (www.yahoo.com,Yahoo,10))

The code worked fine when I run spark-shell and use the default SparkContext sc which get created when spark-shell is invoked. However, I created my own SparkContext and tried to run the same sequence of code. Before creating my own context, I stop the default created SparkContext using sc.stop

sc.stop
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
val conf = new SparkConf().setMaster("local").setAppName("MyApp")
val sc = new SparkContext(conf)

When I create SparkContext like this and use broadcasts variable, I get the following exception: org.apache.spark.SparkException: Task not serializable

Caused by: java.io.NotSerializableException: org.apache.spark.SparkConf

Why does it happen like that and what shall I do so that I don't get these errors?Anything I'm missing?

object not serializable org.apache.spark.SparkContext

Answers (1)

Related Questions