user1011332
user1011332

Reputation: 773

Somali encoding

I am crawling for tweets from Somalia on Twitter. This is what I am getting:

T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi

I tracked down the original tweet and this is actually how it reads:

Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi

How do I automatically convert the version I am getting to the correct encoding?

Thanks!

Upvotes: 0

Views: 196

Answers (1)

unutbu
unutbu

Reputation: 880717

What you have looks very much like a unicode: (note the u before the double-quotes.)

In [41]: print(u"T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi")
Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi

If what you have is a str (as opposed to a unicode), then you can decode it with raw_unicode_escape:

In [43]: print("T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi".decode('raw_unicode_escape'))
Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi

Upvotes: 2

Related Questions