How to define operation on dataframe and run them later?

Question

I want to define a set of aggregates and operations on a dataframe on different stages but I don't want them to be executed (just defined) and then execute them later (like a pipeline) If you are familiar with Frameless (I don't want to use Frameless), something like Job[A].

def addSelect(df:Dataframe) = {
    df.select("name")
}

def addCount(df:Dataframe) = {
    df.count()
}

def addSum(df:Dataframe) = {
    df.sum()
}

def addShow(df:Dataframe) = {
    df.show()
}

val df = ...
val pipeline = addSum( addSelect(df) )
//if(userWantsToExecute) pipeline.execute()

How to define operation on dataframe and run them later?

Answers (1)

Related Questions