Guilherme Luis
Guilherme Luis

Reputation: 78

Using string() function of Xpath, how to ignore specific tags?

I'm using Scrapy selector and I have an HTML like this:

<p class="TweetTextSize TweetTextSize--normal js-tweet-text tweet-text" lang="pt" data-aria-label-part="0">O
    <a href="/MInfraestrutura" class="twitter-atreply pretty-link js-nav" dir="ltr" data-mentioned-user-id="523331076">
        <s>@</s><b>MInfraestrutura</b></a> <a href="/tarcisiogdf" class="twitter-atreply pretty-link js-nav" dir="ltr"
        data-mentioned-user-id="1078618844007157761"><s>@</s><b>tarcisiogdf</b></a> prevê investimentos de R$ 30 bilhões
    para ampliar a malha ferroviária do país nos próximos 6 anos. Estudo de 2018 da Fundação Dom Cabral, a malha
    rodoviária é utilizada para o escoamento de 75% da produção no país. As ferrovias respondem por 5,4%.
    <a href="https://twitter.com/jairbolsonaro/status/1226108292482682881" 
        class="twitter-timeline-link u-hidden" 
        data-pre-embedded="true"
        dir="ltr">pic.twitter.com/wa8X7gvOOc
    </a>
</p>

And I want to go deep in every tags and extract its texts, ignoring texts inside of anchors with class "twitter-timeline-link u-hidden". So I want to ignore the following text : pic.twitter.com/wa8X7gvOOc

What I've tried:

node.xpath('//*[not(self::a[@class="twitter-timeline-link u-hidden"])]').xpath('string()').get()

The result:

'O @MInfraestrutura @tarcisiogdf prevê investimentos de R$ 30 bilhões para ampliar a malha ferroviária do país nos próximos 6 anos. Estudo de 2018 da Fundação Dom Cabral, a malha rodoviária é utilizada para o escoamento de 75% da produção no país. As ferrovias respondem por 5,4%.pic.twitter.com/wa8X7gvOOc'

The expected:

'O @MInfraestrutura @tarcisiogdf prevê investimentos de R$ 30 bilhões para ampliar a malha ferroviária do país nos próximos 6 anos. Estudo de 2018 da Fundação Dom Cabral, a malha rodoviária é utilizada para o escoamento de 75% da produção no país. As ferrovias respondem por 5,4%.'

Does anyone knows how to ignore tags using string() function. Or any other way to exclude anchors with specific tags inside the some node?.

Thanks

Upvotes: 2

Views: 169

Answers (1)

Jack Fleeting
Jack Fleeting

Reputation: 24930

Try changing it to:

node.xpath('//*[not(self::a[@class="twitter-timeline-link u-hidden"])]/text()').extract()

That should give you an output without the pic.twitter.com/wa8X7gvOOc.

Upvotes: 1

Related Questions