python xml parse cdata

Question

im try to scrape news data from forex calendar, but i have small problem the xml file have

def get_news_calendar():
    r = requests.get('http://www.forexfactory.com/ffcal_week_this.xml')
    soup = BeautifulSoup(r.text , 'lxml')
    events = soup.find_all('event')
    for event in events:
        print event.find('title').text, event.find('country').text, event.find('date'), event.find('time').text, event.find('impact').text, event.find('forecast').text, event.find('previous').text

output :

Current Account EUR     
Retail Sales m/m GBP     
MPC Member Saunders Speaks GBP     
Core CPI m/m CAD     
CPI m/m CAD     
Trimmed CPI y/y CAD     
Median CPI y/y CAD     
Common CPI y/y CAD     
FOMC Member Kashkari Speaks USD     
Flash Manufacturing PMI USD     
Flash Services PMI USD     
Existing Home Sales USD     
IMF Meetings ALL     
IMF Meetings ALL     
Treasury Sec Mnuchin Speaks USD     
French Presidential Election EUR

example xml file :


    German Flash Manufacturing PMI
    EUR

how i can print the value of cdata ?

Parfait · Accepted Answer

Consider directly using lxml and run xpath on all nodes as .text() can retrieve CData content.

import requests
import lxml.etree as et

def get_news_calendar():        
    r = requests.get('http://www.forexfactory.com/ffcal_week_this.xml')
    data = et.fromstring(r.text.encode("utf-8"))

    events = data.xpath('//event')
    for event in events:
        print(event.find('title').text, event.find('country').text,
              event.find('date').text, event.find('time').text, 
              event.find('impact').text, event.find('forecast').text, 
              event.find('previous').text)

get_news_calendar()

# Bank Holiday NZD 04-16-2017 9:00pm Holiday None None
# Bank Holiday AUD 04-16-2017 10:00pm Holiday None None
# GDP q/y CNY 04-17-2017 2:00am High 6.8% 6.8%
# Industrial Production y/y CNY 04-17-2017 2:00am High 6.2% 6.3%
# Fixed Asset Investment ytd/y CNY 04-17-2017 2:00am Medium 8.8% 8.9%
# NBS Press Conference CNY 04-17-2017 2:00am Medium None None
# Retail Sales y/y CNY 04-17-2017 2:00am Low 9.7% 9.5%
# Bank Holiday CHF 04-17-2017 6:00am Holiday None None
# BOJ Gov Kuroda Speaks JPY 04-17-2017 6:15am High None None
# Bank Holiday GBP 04-17-2017 7:00am Holiday None None
# French Bank Holiday EUR 04-17-2017 7:00am Holiday None None
# ...

python xml parse cdata

Answers (2)

Related Questions