Yusuf Selim KARATAS
Yusuf Selim KARATAS

Reputation: 115

Fetching Text in NavigableString in BeautifulSoup (bs4)

I am trying to parse an rss source and for that I need to get an image url.

One problem I run into is, sometimes image urls are not directly supplied with a tag but has been put inside of description tag with "src = "https://xxxxxxxxx""

Original source is that:

enter image description here

<item>
<title>Starlink, 1 milyon kullanıcıya ulaştı</title>
<link>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/</link>
<comments>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/#respond</comments>
<dc:creator>Erdem Akın Temel</dc:creator>
<pubDate>Tue, 20 Dec 2022 07:39:04 +0000</pubDate>
<category>İŞ DÜNYASI</category>
<category>elon musk</category>
<category>iran</category>
<category>Rusya-Ukrayna Savaşı</category>
<category>SpaceX</category>
<category>Starlink</category>
<category>Starshield</category>
<category>uydu internet</category>
<guid isPermaLink="false">https://digitalage.com.tr/?p=147043</guid>

<content:encoded>&lt;div&gt;&lt;img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /&gt;&lt;/div&gt;&lt;p&gt;Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.&lt;/p&gt;
&lt;p&gt;Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu &lt;a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener"&gt;bulunuyor&lt;/a&gt;. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.&lt;/p&gt;
&lt;blockquote class="twitter-tweet"&gt;
&lt;p dir="ltr" lang="en"&gt;Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone &lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt;&lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt;&lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt; &lt;a href=""&gt;;/a&gt; &lt;a href=" &lt;a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw"&gt;December 19, 2022&lt;/a&gt;&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;&lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;&lt;/p&gt;
&lt;p&gt;Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla &lt;a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/"&gt;Starlink uydularını Ukrayna’ya yönlendirmesi&lt;/a&gt;, Starlink’in &lt;a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener"&gt;askeri bir versiyonunun geliştirilmeye başladığının&lt;/a&gt; duyurulması, İran’da devam eden protestolarda halka destek amacıyla &lt;a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener"&gt;İran’a internet hizmeti verilmeye başlanması&lt;/a&gt; ve Starlink’in &lt;a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener"&gt;hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması&lt;/a&gt; bunlardan bazılarıydı.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Kaynak:&lt;/strong&gt; &lt;a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener"&gt;SpaceX&amp;#8217;s Starlink announces it now has 1 million users &amp;#8211; Mashable&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/"&gt;Starlink, 1 milyon kullanıcıya ulaştı&lt;/a&gt; yazısı ilk önce &lt;a rel="nofollow" href="https://digitalage.com.tr"&gt;Digital Age&lt;/a&gt; üzerinde ortaya çıktı.&lt;/p&gt;
</content:encoded>
<wfw:commentRss>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
</item>

Since it is a tag I can use findAll('content:encoded') and I can reach to retrieve text region which holds image url.

Text Region which holds image url (It is Navigable String):

enter image description here

<div><img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /></div><p>Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.</p>
<p>Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu <a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener">bulunuyor</a>. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.</p>
<blockquote class="twitter-tweet">
<p dir="ltr" lang="en">Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone <img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <a href="/5suNxFvtEH">5suNxFvtEH</a> <a href="/E1ojYarcEA">pic.twitter.com/E1ojYarcEA</a></p>
<p>— SpaceX (@SpaceX) <a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw">December 19, 2022</a></p></blockquote>
<p><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script></p>
<p>Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla <a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/">Starlink uydularını Ukrayna’ya yönlendirmesi</a>, Starlink’in <a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener">askeri bir versiyonunun geliştirilmeye başladığının</a> duyurulması, İran’da devam eden protestolarda halka destek amacıyla <a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener">İran’a internet hizmeti verilmeye başlanması</a> ve Starlink’in <a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener">hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması</a> bunlardan bazılarıydı.</p>
<p><strong>Kaynak:</strong> <a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener">SpaceX&#8217;s Starlink announces it now has 1 million users &#8211; Mashable</a></p>
<p><a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/">Starlink, 1 milyon kullanıcıya ulaştı</a> yazısı ilk önce <a rel="nofollow" href="https://digitalage.com.tr">Digital Age</a> üzerinde ortaya çıktı.</p>

But I don't know how to obtain only image url which is in the text region with src=.

Any help will be appreciated.

Upvotes: 0

Views: 45

Answers (1)

Andrej Kesely
Andrej Kesely

Reputation: 195553

If I understand you correctly, you can create second BeautifulSoup object from the <content:encoded> content and search for the <img>:

from bs4 import BeautifulSoup


rss_src = """\
<item>
<title>Starlink, 1 milyon kullanıcıya ulaştı</title>
<link>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/</link>
<comments>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/#respond</comments>
<dc:creator>Erdem Akın Temel</dc:creator>
<pubDate>Tue, 20 Dec 2022 07:39:04 +0000</pubDate>
<category>İŞ DÜNYASI</category>
<category>elon musk</category>
<category>iran</category>
<category>Rusya-Ukrayna Savaşı</category>
<category>SpaceX</category>
<category>Starlink</category>
<category>Starshield</category>
<category>uydu internet</category>
<guid isPermaLink="false">https://digitalage.com.tr/?p=147043</guid>

<content:encoded>&lt;div&gt;&lt;img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /&gt;&lt;/div&gt;&lt;p&gt;Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.&lt;/p&gt;
&lt;p&gt;Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu &lt;a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener"&gt;bulunuyor&lt;/a&gt;. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.&lt;/p&gt;
&lt;blockquote class="twitter-tweet"&gt;
&lt;p dir="ltr" lang="en"&gt;Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone &lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt;&lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt;&lt;img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /&gt; &lt;a href=""&gt;;/a&gt; &lt;a href=" &lt;a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw"&gt;December 19, 2022&lt;/a&gt;&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;&lt;script async src="https://platform.twitter.com/widgets.js" charset="utf-8"&gt;&lt;/script&gt;&lt;/p&gt;
&lt;p&gt;Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla &lt;a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/"&gt;Starlink uydularını Ukrayna’ya yönlendirmesi&lt;/a&gt;, Starlink’in &lt;a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener"&gt;askeri bir versiyonunun geliştirilmeye başladığının&lt;/a&gt; duyurulması, İran’da devam eden protestolarda halka destek amacıyla &lt;a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener"&gt;İran’a internet hizmeti verilmeye başlanması&lt;/a&gt; ve Starlink’in &lt;a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener"&gt;hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması&lt;/a&gt; bunlardan bazılarıydı.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Kaynak:&lt;/strong&gt; &lt;a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener"&gt;SpaceX&amp;#8217;s Starlink announces it now has 1 million users &amp;#8211; Mashable&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/"&gt;Starlink, 1 milyon kullanıcıya ulaştı&lt;/a&gt; yazısı ilk önce &lt;a rel="nofollow" href="https://digitalage.com.tr"&gt;Digital Age&lt;/a&gt; üzerinde ortaya çıktı.&lt;/p&gt;
</content:encoded>
<wfw:commentRss>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
</item>"""


soup1 = BeautifulSoup(rss_src, "html.parser")
soup2 = BeautifulSoup(soup1.find("content:encoded").text, "html.parser")

print(soup2.img["src"])

Prints:

https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg

Upvotes: 1

Related Questions