DB connection with foreachRDD Spark Streaming

Question

I am creating and passing a connection to the database while streaming the data. Reading everytime the data from the file and creating Neo4j sessions adds performance overhead. How can I change the existing code to improve the performance of the application? Should I change foreachRDD to foreachPartition in order to create a separate object for the connection?

Here is my code for streaming:

val wordsArrays: DStream[Array[String]] = values.map(t => t.split(", "))

wordsArrays.foreachRDD(rdd => {

  rdd.flatMap(
  data => {
    val recommendations = execNeo4jSearchQuery(neo4jConfigs.getNeo4jConfig(args(1)), data)
    val calendarTime = Calendar.getInstance.getTime
    val recommendationsMap = convertDataToMap(recommendations, calendarTime)
    recommendationsMap

  }).saveToEs("rdd-timed/output")
 }
)

Cassie · Accepted Answer

Usage of database connection with mapPartitions is preferable, rdd with updated partitions is then saved to ElasticSearch:

 wordsArrays.foreachRDD(rdd => {

      rdd.mapPartitions { partition => {
            val neo4jConfig = neo4jConfigurations.getNeo4jConfig(args(1))

            val result = partition.map( data => {

              val recommendations = execNeo4jSearchQuery(neo4jConfig, data)
              val calendarTime = Calendar.getInstance.getTime
              convertDataToMap(recommendations, calendarTime)

          }).toList.flatten
          result.iterator
        }
      }.saveToEs("rdd-timed/output")
    })

DB connection with foreachRDD Spark Streaming

Answers (2)

Related Questions