Creation of a Map structure based on PySpark DataFrame

Question

I have this data in the parquet file:

ID=222, ORDER=None, PARENT=101
ID=111, ORDER=None, PARENT=001
ID=333, ORDER=None, PARENT=111
ID=444, ORDER=None, PARENT=111
ID=101, ORDER=None, PARENT=0
ID=001, ORDER=None, PARENT=0

I want to create a Map like this id -> (parent, level, order). In the above-given example there are 2 levels - 0, 1, 2. However, I don't want this number to be hardcoded.

The output should be the following:

222 -> 101,1,None
101 -> 101,0,None
111 -> 001,1,None
001 -> 001,0,None
333 -> 111,2,None
444 -> 111,2,None

The level 0 means a root level without a parent.

I have written the following function (see below), but I guess that there is an easier way to create a map. Maybe even without collecting data from RDD's into a dictionary. It seems to me that I do not use the power of distributed computing by applying rdd.collect().

def get_map(sqlContext, pathtoparquetfile):
    f = sqlContext.read.parquet(pathtoparquetfile).rdd.collect() 
    f = dict([ (r.ID, r.asDict()) for r in f ] )

    # Fix root vertices without parent pointers
    for (k, t) in f.iteritems():
        p = t['PARENT'] 
        if p == k or not f.has_key(p):
            t['PARENT'] = 0

    parent = { r['ID']:r['PARENT'] for r in f.values() }
    level = {}

    def find_level(id):
        if not level.has_key(id): 
            if not f.has_key(parent[id]): parent[id] = 0
            level[id] = 0 if parent[id]==0 else find_level(parent[id]) + 1
        return level[id]

    for (k, t) in f.iteritems():
        t.update(level = find_level(k))

    for (k, t) in f.iteritems():
        t['children'] = []
    for (k, t) in f.iteritems():
        p = t['PARENT']
        if p != 0 and f.has_key(p):
            f[p]['children'].append(k)
    for (k, t) in f.iteritems():
        t['children'].sort(key=lambda c:(f[c]['ORDER'], c))
        pos = 0
        for c in t['children']:
            f[c]['order'] = pos
            pos = pos + 1
    for (k, t) in f.iteritems():
        if not t.has_key('order'): t['order'] = 0

    return {k:(t['PARENT'] if t['level'] == 2 else k, t['level'], t['order']) for (k, t) in f.iteritems() }

Creation of a Map structure based on PySpark DataFrame

Answers (1)

Related Questions