Inconsistent LabelBinarizer Behaviour breaks Pipeline

Question

My pipeline looks like this:

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelBinarizer

train_animals = pd.DataFrame({'animal': ['cat', 'dog', 'dog']})

lb = LabelBinarizer()
lb.fit_transform(train_animals.animal)

Which generates:

array([[0],
       [1],
       [1]])

However, when I apply my pipeline on unseen data:

test_animals = pd.DataFrame({'animal': ['cat', 'cat', 'duck', 'fish']})
lb.transform(test_animals)

It will spit out:

array([[1, 0],
       [1, 0],
       [0, 0],
       [0, 0]])

Which breaks everything.

I need LabelBinarizer to ALWAYS onehotencode and never generate a single column. So:

lb = LabelBinarizer()
lb.fit_transform(train_animals.animal)

Will ideally generate:

array([[1, 0],
       [0, 1],
       [0, 1]])

emehex · Accepted Answer

I think I've come up with a solution that hacks the internal label_binarize function and that works with DataFrameMapper

import pandas as pd
import numpy as np
from sklearn.preprocessing import label_binarize, LabelBinarizer
from sklearn.base import TransformerMixin
from sklearn_pandas import DataFrameMapper

class SafeLabelBinarizer(TransformerMixin):

    def __init__(self):
        self.lb = LabelBinarizer()

    def fit(self, X):
        X = np.array(X)
        self.lb.fit(X)
        self.classes_ = self.lb.classes_

    def transform(self, X):
        K = np.append(self.classes_, ['__FAKE__'])
        X = label_binarize(X, K, pos_label=1, neg_label=0)
        X = np.delete(X, np.s_[-1], axis=1)
        return X

    def fit_transform(self, X):
        self.fit(X)
        return self.transform(X)

Training data:

train_animals = pd.DataFrame({'animal': ['cat', 'dog', 'dog']})

mapper = DataFrameMapper([
    ('animal', SafeLabelBinarizer())], df_out=True)

mapper.fit_transform(train_animals)

>>>

    animal_cat  animal_dog
0   1   0
1   0   1
2   0   1

Unseen data:

test_animals = pd.DataFrame({'animal': ['cat', 'cat', 'duck', 'fish']})
mapper.transform(test_animals)

>>>

    animal_cat  animal_dog
0   1   0
1   1   0
2   0   0
3   0   0

🎉

Inconsistent LabelBinarizer Behaviour breaks Pipeline

Answers (2)

Related Questions