How to remove diacritics in pyspark dataframes?

Question

I am wondering how to remove diacritics in Pyspark Dataframe with Python2. I would need something like

from pyspark.sql.session import SparkSession
from pyspark import SparkContext
import pyspark.sql.functions as sf
from pyspark.sql.types import StringType

df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', 'num'])

def remove_diacritics(s):
    return unidecode.unidecode(s)

rem_udf = sf.udf(remove_diacritics, StringType())

df.select(rem_udf('text'))

unfortunatelly, unidecode module is not available in our cluster.

Is there some any natural solution that I am missing excepting manual replacement of all possible characters? Note that the expected result is [padlo, drez]

How to remove diacritics in pyspark dataframes?

Answers (1)

Related Questions