Reading XML using PIG

Question

I am trying to read the data from the xml file using PIG but I am getting incomplete output.

Input File-

   
htp://www.abc.com/
Sports
120
    
good site
This is Avg site
Bad site

and the code I am using is :

register 'Desktop/piggybank-0.11.0.jar';
A = load 'input3' using org.apache.pig.piggybank.storage.XMLLoader('document') as (data:chararray);


 B = foreach A GENERATE FLATTEN(REGEX_EXTRACT_ALL(data,'(?s).*?([^>]*?).*?([^>]*?).*?([^>]*?).*?.*?\s*([^>]*?)\s*.*?.*?')) as (url:chararray,catergory:chararray,usercount:int,review:chararray);

And the output I get is:

(htp://www.abc.com/,Sports,120,good site)

which is incomplete output.Can someone please help on what I am missing?

Abhishek · Accepted Answer

huh!! Finally got it working using cross. I'm using XPath, you can use regex if you want. I find, XPath way to be easier and cleaner than regex. I guess, you can see it too. Don't forget to replace the testXML.xml with your XML.

XPath Way:

DEFINE XPath org.apache.pig.piggybank.evaluation.xml.XPath();
A = LOAD 'testXML.xml' using org.apache.pig.piggybank.storage.XMLLoader('document') as (x:chararray);
B = FOREACH A GENERATE XPath(x, 'document/url'), XPath(x, 'document/category'), XPath(x, 'document/usercount');
C = LOAD 'testXML.xml' using org.apache.pig.piggybank.storage.XMLLoader('review') as (review:chararray);
D = FOREACH C GENERATE XPath(review,'review');
E = cross B,D;
dump E;

Regex Way:

A = LOAD 'testXML.xml' using org.apache.pig.piggybank.storage.XMLLoader('document') as (x:chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(x,'(?s).*?([^>]*?).*?([^>]*?).*?([^>]*?).*?')) as (url:chararray,catergory:chararray,usercount:int);
C = LOAD 'testXML.xml' using org.apache.pig.piggybank.storage.XMLLoader('review') as (review:chararray);
D = FOREACH C GENERATE FLATTEN(REGEX_EXTRACT_ALL(review,'([^>]*?)'));
E = cross B,D;
dump E;

Output:

(htp://www.abc.com/,Sports,120,Bad site)
(htp://www.abc.com/,Sports,120,This is Avg site)
(htp://www.abc.com/,Sports,120,good site)

Isn't that you were expecting? ;)

Reading XML using PIG

Answers (1)

Related Questions