Regex works strange in Python 2.7

Question

This is part of Scrapy parser function, in loop i am extracting text and searching for some string in text. This code finds random items, i mean it parse but when i check manually there is no matchings in text - very strange, because if no match it should not go inside "if" and append it:

for site in set(sites):
    if (re.findall(r'(Обам*)', " ".join(site.xpath('div/div/div').extract()), re.IGNORECASE)) !=None:
        item['Target'] = unicode('Obama')
        item['Label'] = unicode(" ".join(site.xpath('h3/a').extract()))
        items.append(item)

When i use another approach

len(re.search(r'(Обам*)', " ".join(site.xpath('div/div/div').extract()), re.IGNORECASE)) !=0:

it simply doesn't work at all, no any parsed items, but i am sure it should find. If i remove "len" counting - it start work, but again randomly (!!!).

By the way if i use simple string function string.find() it works fine.

Edit: This is example Input (it's hard to exactly math input and output so this is some illusrating text, what is worth is that in that text no "Обама" but it saved with match Obama, "Target" : "Obama",):



Они оскорбили Царева не как частного человека, а как выразителя идей Юго-Востока.
 Они оскорбили Клинтон
 не как частного человека, а как выразителя идей Юго-Востока. Они ясно 
дали понять, какое будущее они готовят русским на Украине.

Output form MongoDB:

{
    "_id" : ObjectId("538fa13abb88b114143d750b"),
    "comment_datesaved" : ISODate("2014-06-05T02:44:01.749Z"),
    "comment_text" : "

Они оскорбили Царева не как частного человека, а как выразителя идей Юго-Востока.
 Они оскорбили Обаму
 не как частного человека, а как выразителя идей Юго-Востока. Они ясно 
дали понять, какое будущее они готовят русским на Украине.",
    "Target" : "Obama",
    "Label" : "

Они оскорбили Царева не как частного человека, а как выразителя идей Юго-Востока.",

}

Regex works strange in Python 2.7

Answers (1)

Related Questions