How to get data from a later function in scrapy

Question

I'm having trouble structuring scrapy data as I want. My spider get some data from one page, then follows a list of links on that page to get a link of this next page.

    def parse_page(self, response):
 
        links = response.css(LINK_SELECTOR).extract()

        data = {
            'name': response.css(NAME_SELECTOR).extract_first(),
            'date': response.css(DATE_SELECTOR).extract(),
        }

        for link in links:
            next_link = response.urljoin(link)
            yield scrapy.Request(next_link, callback=self.parse_url, meta={'data': data})

    def parse_url(self, response):
        data = response.meta['data']
        data['url'] = response.css(a::attr(href)').get()
        yield data

What I would like is to get the data with the following structure:

{'name': name, 'date': date, 'url': [url1, url2, url3, url4]}

Instead of

{'name': name, 'date': date, 'url': url1}
{'name': name, 'date': date, 'url': url2}
{'name': name, 'date': date, 'url': url3}
{'name': name, 'date': date, 'url': url4}

I've tried to use items but I don't get how to pass the data from parse_url to the parse_page function. How would I do that?

Thanks in advance.

stranac · Accepted Answer

You can use scrapy's coroutine support to do this pretty easily.

The code would look something like this:

async def parse_page(self, response):
    ...
    for link in links:
        request = response.follow(link)
        response = await self.crawler.engine.download(request, self)
        urls.append(response.css('a::attr(href)').get())

How to get data from a later function in scrapy

Answers (2)

Related Questions