Read csv Pandas spaces multiples

Question

I have a very similar dataset in csv file with two column,

For Example: In first row and first column Item:"Betarraga paquete 5 unidades"

In first row and second column qty:1

Item    qty
Betarraga paquete 5 unidades    1
Betarraga paquete 5 unidades    2
Betarraga paquete 5 unidades    1
Betarraga paquete 5 unidades    1
CANASTA PEQUEÑA 1
Cebolla Nueva 20 unidades   1
Cebolla Nueva 20 unidades   2
Cebolla Nueva 20 unidades   1
Cebollin atado de 3 2
Cebollin atado de 3 2
Cebollin atado de 3 3
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1

II should like to read with pandas, but using:

     df1 = pd.read_csv(r'pedidos4.csv',sep='\s+',encoding='utf-8',error_bad_lines=False)

This only returns 2 column but first word in the first column input as rowname

  df.shape
  (15, 2)

Akshay Sehgal · Accepted Answer

I am able to read the exact text block you have posted as 2 columns. Please try using sep='\s\s+'

After that, you can write a function that takes in a row, checks if qty is null, fixes the qty column and the Item column and returns the row. Then you can apply it over the df over axis=1

Item    qty
Betarraga paquete 5 unidades    1
Betarraga paquete 5 unidades    2
Betarraga paquete 5 unidades    1
Betarraga paquete 5 unidades    1
CANASTA PEQUEÑA 1
Cebolla Nueva 20 unidades   1
Cebolla Nueva 20 unidades   2
Cebolla Nueva 20 unidades   1
Cebollin atado de 3 2
Cebollin atado de 3 2
Cebollin atado de 3 3
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1
Cebollin atado de 3 1

df = pd.read_clipboard('\s\s+')

#Then use fix to fix the qty values

def fix(row):
    if pd.isnull(row['qty']):
        row['qty']=row['Item'][-1:]
        row['Item']=row['Item'][:-1].strip()
    return row

fixed_df = df.apply(fix, axis=1)
print(fixed_df)

                            Item qty
0   Betarraga paquete 5 unidades   1
1   Betarraga paquete 5 unidades   2
2   Betarraga paquete 5 unidades   1
3   Betarraga paquete 5 unidades   1
4               CANASTA PEQUEÑA    1
5      Cebolla Nueva 20 unidades   1
6      Cebolla Nueva 20 unidades   2
7      Cebolla Nueva 20 unidades   1
8           Cebollin atado de 3    2
9           Cebollin atado de 3    2
10          Cebollin atado de 3    3
11          Cebollin atado de 3    1
12          Cebollin atado de 3    1
13          Cebollin atado de 3    1
14          Cebollin atado de 3    1

Read csv Pandas spaces multiples

Answers (2)

Related Questions