Convert Spark Data Frame to org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]

Question

I'm very new to scala and spark 2.1. I'm trying to calculate correlation between many elements in a data frame which looks like this:

item_1 | item_2 | item_3 | item_4
     1 |      1 |      4 |      3
     2 |      0 |      2 |      0
     0 |      2 |      0 |      1

Here is what I've tried:

val df = sqlContext.createDataFrame(
  Seq((1, 1, 4, 3),
      (2, 0, 2, 0),
      (0, 2, 0, 1)
).toDF("item_1", "item_2", "item_3", "item_4")


val items = df.select(array(df.columns.map(col(_)): _*)).rdd.map(_.getSeq[Double](0))

And calcualte correlation between elements:

val correlMatrix: Matrix = Statistics.corr(items, "pearson")

With followning error message:

:89: error: type mismatch;
found   : org.apache.spark.rdd.RDD[Seq[Double]]
 required: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]
       val correlMatrix: Matrix = Statistics.corr(items, "pearson")

I don't know how to create the org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] from a data frame.

This might be a really easy task but I kinda struggle with it and I'm happy for any advice.

zero323 · Accepted Answer

You can for example use VectorAssembler. Assemble vectors and convert to RDD

import org.apache.spark.ml.feature.VectorAssembler

val rows = new VectorAssembler().setInputCols(df.columns).setOutputCol("vs")
  .transform(df)
  .select("vs")
  .rdd

Extract Vectors from Row:

Spark 1.x:

rows.map(_.getAs[org.apache.spark.mllib.linalg.Vector](0))

Spark 2.x:

rows
  .map(_.getAs[org.apache.spark.ml.linalg.Vector](0))
  .map(org.apache.spark.mllib.linalg.Vectors.fromML)

Regarding your code:

You have Integer columns not Double.
Data is not an array so the you cannot use _.getSeq[Double](0).

Convert Spark Data Frame to org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]

Answers (2)

Related Questions