How to control number of records while writing Spark Dataframe to Kafka Producer using Spark Java

Question

I have a spark dataframe with two columns, 'keyCol' column and 'valCol' column. The dataframe is of huge size, nearly 100 million rows. I want to write/produce the dataframe to a kafka topic in mini batches, i.e. 10000 records per minute. This spark job is going to run once per day which creates this dataframe

How to implement writing in mini batches of 10000 records per minute in below code, or please suggest if there is any better/efficient way to implement this.

spark_df.foreachPartition(partitions ->{
            Producer producer= new KafkaProducer(allKafkaParamsMapObj);
            while (partitions) {
                Row row =  partitions.next();
                producer.send(new ProducerRecord("topicName", row.getAs("keyCol"), row.getAs("valCol")), new Callback() {
                    @Override
                    public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                       //Callback code goes here
                    }
                });
            }
            return;
        });

How to control number of records while writing Spark Dataframe to Kafka Producer using Spark Java

Answers (1)

Related Questions