Fitter Spark RDD based on result from filtering of different RDD

Question

conf = SparkConf().setAppName("my_app")
with SparkContext(conf=conf) as sc:
    sqlContext = SQLContext(sc)
    df = sqlContext.read.parquet(*s3keys)

    # this gives me distinct values as list
    rdd = df.filter(
            (1442170800000 <= df.timestamp) & (
                df.timestamp <= 1442185200000) & (
                    df.lat > 40.7480) & (df.lat < 40.7513) & (
                        df.lon > -73.8492) & (
                            df.lon < -73.8438)).map(lambda p: p.userid).distinct()

    # how do I apply the above list to filter another rdd? 
    df2 = sqlContext.read.parquet(*s3keys_part2)
    # example:
    rdd = df2.filter(df2.col1 in (rdd values from above))

zero323 · Accepted Answer

As mentioned by Matthew Graves what you need here is a join. It means more or less something like this:

pred = ((1442170800000 <= df.timestamp) & 
        (df.timestamp <= 1442185200000) &
        (df.lat > 40.7480) &
        (df.lat < 40.7513) &
        (df.lon > -73.8492) &
        (df.lon < -73.8438))

users = df.filter(pred).select("userid").distinct()

users.join(df2, users.userid == df2.col1)

Fitter Spark RDD based on result from filtering of different RDD

Answers (2)

Related Questions