How do you extract content under header tags?

Question

I have an html like so:


  Title 1
  Lorem ipsum 1

  Title 2
  Lorem ipsum 2

  Title 3
  Lorem ipsum 3

  Title 4
  Lorem ipsum 4

  Title 5
  Lorem ipsum 5

I want to extract content under each header title and place them into an array like so:

[
  "Lorem ipsum 1",
  "Lorem ipsum 2",
  "Lorem ipsum 3",
  "Lorem ipsum 4",
  "Lorem ipsum 5"
]

How would I do that using regex and/or ruby? I tried playing around with split method, like html_body.split(">"), but still can't figure out how to do so correctly. What is the correct way to do it using regex and/or ruby?

sawa · Accepted Answer

You shouldn't reinvent the wheel. Using Nokogiri is more robust than trying from scratch.

require "nokogiri"

html = <<_

  Title 1
  Lorem ipsum 1

  Title 2
  Lorem ipsum 2

  Title 3
  Lorem ipsum 3

  Title 4
  Lorem ipsum 4

  Title 5
  Lorem ipsum 5

_

Nokogiri::HTML(html)
.css("div")
.children
.reject{|e| e.name =~ /\Ah\d\z/}
.map{|e| e.to_html.strip}.reject(&:empty?)

result:

[
  "Lorem ipsum 1",
  "Lorem ipsum 2",
  "Lorem ipsum 3",
  "Lorem ipsum 4",
  "Lorem ipsum 5"
]

How do you extract content under header tags?

Answers (2)

Related Questions