Reputation: 773
I am crawling for tweets from Somalia on Twitter. This is what I am getting:
T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi
I tracked down the original tweet and this is actually how it reads:
Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi
How do I automatically convert the version I am getting to the correct encoding?
Thanks!
Upvotes: 0
Views: 196
Reputation: 880717
What you have looks very much like a unicode
: (note the u
before the double-quotes.)
In [41]: print(u"T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi")
Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi
If what you have is a str
(as opposed to a unicode
), then you can decode it with raw_unicode_escape
:
In [43]: print("T\u00fcrk K\u0131z\u0131lay\u0131 Genel Ba\u015fkan\u0131m\u0131z Sn. @AhmetLutfiAkar yar\u0131n sabah 08:00'e TV8'de canl\u0131 yay\u0131n konu\u011fu olacak... @TurkKizilayi".decode('raw_unicode_escape'))
Türk Kızılayı Genel Başkanımız Sn. @AhmetLutfiAkar yarın sabah 08:00'e TV8'de canlı yayın konuğu olacak... @TurkKizilayi
Upvotes: 2