Python : extract data from some nasty html

Question

My question is related to usage of HTMLParser but on a bit of nast html code.
I have a file/webpage containing multiple html/css entries and somewhere in bewteen the lines i get this frequently repeated parts of html code i need to parse to extract some certain data.

For example:

1)
Number 66 to be extracted
Number 123456 to be extracted ftom this comment

66.&hsbc; 

ristill advocka, sygint: SURVE/123-021/11-2/XX

And another frequent entries which show up in pairs:

2)
First entry to be ignored because of empty 'data'
Number 123456 to extract


monozzio...

Here is my first class so far but it starts to exceed my skills, any help appreciated.

from HTMLParser import HTMLParser
class MyParser(HTMLParser):  
   def __init__(self):
HTMLParser.__init__(self)
self.recording = 0
self.data = []
   def handle_starttag(self, tag, attributes):
     if tag != 'p':
       return
     if self.recording:
       self.recording += 1
       return
     for name, value in attributes:
     if name == 'class' and value == 'monozzio':
        break
     else:
     return
     self.recording = 1

def handle_endtag(self, tag):
  if tag == 'p' and self.recording:
    self.recording -= 1

def handle_data(self, data):
  if self.recording:
    ##############################
    #here parse data to get 123456
    ##############################
  self.data.append(data)

p = MyParser()
f = open('file.html', 'r')
htm = f.read()
p.feed(htm)
print '
'.join(p.data)
p.close()

Python : extract data from some nasty html

Answers (1)

Related Questions