Reputation: 115
I am trying to parse an rss source and for that I need to get an image url.
One problem I run into is, sometimes image urls are not directly supplied with a tag but has been put inside of description tag with "src = "https://xxxxxxxxx""
Original source is that:
<item>
<title>Starlink, 1 milyon kullanıcıya ulaştı</title>
<link>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/</link>
<comments>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/#respond</comments>
<dc:creator>Erdem Akın Temel</dc:creator>
<pubDate>Tue, 20 Dec 2022 07:39:04 +0000</pubDate>
<category>İŞ DÜNYASI</category>
<category>elon musk</category>
<category>iran</category>
<category>Rusya-Ukrayna Savaşı</category>
<category>SpaceX</category>
<category>Starlink</category>
<category>Starshield</category>
<category>uydu internet</category>
<guid isPermaLink="false">https://digitalage.com.tr/?p=147043</guid>
<content:encoded><div><img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /></div><p>Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.</p>
<p>Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu <a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener">bulunuyor</a>. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.</p>
<blockquote class="twitter-tweet">
<p dir="ltr" lang="en">Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone <img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <a href="">;/a> <a href=" <a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw">December 19, 2022</a></p></blockquote>
<p><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script></p>
<p>Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla <a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/">Starlink uydularını Ukrayna’ya yönlendirmesi</a>, Starlink’in <a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener">askeri bir versiyonunun geliştirilmeye başladığının</a> duyurulması, İran’da devam eden protestolarda halka destek amacıyla <a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener">İran’a internet hizmeti verilmeye başlanması</a> ve Starlink’in <a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener">hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması</a> bunlardan bazılarıydı.</p>
<p><strong>Kaynak:</strong> <a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener">SpaceX&#8217;s Starlink announces it now has 1 million users &#8211; Mashable</a></p>
<p><a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/">Starlink, 1 milyon kullanıcıya ulaştı</a> yazısı ilk önce <a rel="nofollow" href="https://digitalage.com.tr">Digital Age</a> üzerinde ortaya çıktı.</p>
</content:encoded>
<wfw:commentRss>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
</item>
Since it is a tag I can use findAll('content:encoded') and I can reach to retrieve text region which holds image url.
Text Region which holds image url (It is Navigable String):
<div><img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /></div><p>Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.</p>
<p>Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu <a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener">bulunuyor</a>. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.</p>
<blockquote class="twitter-tweet">
<p dir="ltr" lang="en">Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone <img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <a href="/5suNxFvtEH">5suNxFvtEH</a> <a href="/E1ojYarcEA">pic.twitter.com/E1ojYarcEA</a></p>
<p>— SpaceX (@SpaceX) <a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw">December 19, 2022</a></p></blockquote>
<p><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script></p>
<p>Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla <a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/">Starlink uydularını Ukrayna’ya yönlendirmesi</a>, Starlink’in <a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener">askeri bir versiyonunun geliştirilmeye başladığının</a> duyurulması, İran’da devam eden protestolarda halka destek amacıyla <a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener">İran’a internet hizmeti verilmeye başlanması</a> ve Starlink’in <a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener">hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması</a> bunlardan bazılarıydı.</p>
<p><strong>Kaynak:</strong> <a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener">SpaceX’s Starlink announces it now has 1 million users – Mashable</a></p>
<p><a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/">Starlink, 1 milyon kullanıcıya ulaştı</a> yazısı ilk önce <a rel="nofollow" href="https://digitalage.com.tr">Digital Age</a> üzerinde ortaya çıktı.</p>
But I don't know how to obtain only image url which is in the text region with src=.
Any help will be appreciated.
Upvotes: 0
Views: 45
Reputation: 195553
If I understand you correctly, you can create second BeautifulSoup
object from the <content:encoded>
content and search for the <img>
:
from bs4 import BeautifulSoup
rss_src = """\
<item>
<title>Starlink, 1 milyon kullanıcıya ulaştı</title>
<link>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/</link>
<comments>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/#respond</comments>
<dc:creator>Erdem Akın Temel</dc:creator>
<pubDate>Tue, 20 Dec 2022 07:39:04 +0000</pubDate>
<category>İŞ DÜNYASI</category>
<category>elon musk</category>
<category>iran</category>
<category>Rusya-Ukrayna Savaşı</category>
<category>SpaceX</category>
<category>Starlink</category>
<category>Starshield</category>
<category>uydu internet</category>
<guid isPermaLink="false">https://digitalage.com.tr/?p=147043</guid>
<content:encoded><div><img width="835" height="508" src="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg" class="attachment-large size-large wp-post-image" alt="Starlink" style="margin-bottom: 15px;" loading="lazy" srcset="https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg 835w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-300x183.jpg 300w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-768x467.jpg 768w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-669x407.jpg 669w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-372x226.jpg 372w, https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835-264x161.jpg 264w" sizes="(max-width: 835px) 100vw, 835px" /></div><p>Elon Musk’ın sahibi olduğu uzay şirketi SpaceX, Starlink adlı uydu internet hizmetinin kullanıcı sayısının bir milyonu aştığını duyurdu.</p>
<p>Bilindiği üzere Starlink, alçak yörüngede oluşturulan bir uydu takımyıldızı ile müşterileri tarafından kurulan antenler arasında bağlantı sağlıyor. Yüksek hızlı internet sağlayabilen Starlink’in an itibarıyla yörüngede 3 binin üzerinde uydusu <a href="https://gizmodo.com/spacex-launches-3-000th-starlink-satellite-1849394962" target="_blank" rel="noreferrer nofollow noopener">bulunuyor</a>. SpaceX, Starlink için 42 bin uyduluk bir uydu takımyıldızı oluşturmak istiyor.</p>
<blockquote class="twitter-tweet">
<p dir="ltr" lang="en">Starlink now has more than 1,000,000 active subscribers – thank you to all customers and members of the Starlink team who contributed to this milestone <img src="https://s.w.org/images/core/emoji/14.0.0/72x72/2764.png" alt="❤" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /><img src="https://s.w.org/images/core/emoji/14.0.0/72x72/1f30e.png" alt="🌎" class="wp-smiley" style="height: 1em; max-height: 1em;" /> <a href="">;/a> <a href=" <a href="https://twitter.com/SpaceX/status/1604872936976154624?ref_src=twsrc%5Etfw">December 19, 2022</a></p></blockquote>
<p><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script></p>
<p>Starlink, 2022 yılında birkaç önemli gelişme ile gündeme yerleşmişti. Elon Musk’ın Rusya’nın Ukrayna’yı işgal girişimi karşısında Ukrayna halkına ve ordusuna destek amacıyla <a href="https://digitalage.com.tr/elon-musk-starlinkin-ukraynaya-internet-saglamaya-basladigini-duyurdu/">Starlink uydularını Ukrayna’ya yönlendirmesi</a>, Starlink’in <a href="https://digitalage.com.tr/spacex-starlinkin-askeri-versiyonunu-gelistiriyor/" target="_blank" rel="noreferrer nofollow noopener">askeri bir versiyonunun geliştirilmeye başladığının</a> duyurulması, İran’da devam eden protestolarda halka destek amacıyla <a href="https://digitalage.com.tr/starlink-iranlilar-icin-aktif-hale-getirildi/" target="_blank" rel="noopener">İran’a internet hizmeti verilmeye başlanması</a> ve Starlink’in <a href="https://digitalage.com.tr/fcc-starlinkin-hareket-halindeki-araclarda-kullanilmasina-onay-verdi/" target="_blank" rel="noreferrer nofollow noopener">hareketli araçlarda kullanılmasının önündeki lisans engelinin kalkması</a> bunlardan bazılarıydı.</p>
<p><strong>Kaynak:</strong> <a href="https://mashable.com/article/starlink-spacex-1-million-users" target="_blank" rel="noreferrer nofollow noopener">SpaceX&#8217;s Starlink announces it now has 1 million users &#8211; Mashable</a></p>
<p><a rel="nofollow" href="https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/">Starlink, 1 milyon kullanıcıya ulaştı</a> yazısı ilk önce <a rel="nofollow" href="https://digitalage.com.tr">Digital Age</a> üzerinde ortaya çıktı.</p>
</content:encoded>
<wfw:commentRss>https://digitalage.com.tr/starlink-1-milyon-kullaniciya-ulasti/feed/</wfw:commentRss>
<slash:comments>0</slash:comments>
</item>"""
soup1 = BeautifulSoup(rss_src, "html.parser")
soup2 = BeautifulSoup(soup1.find("content:encoded").text, "html.parser")
print(soup2.img["src"])
Prints:
https://digitalage.com.tr/wp-content/uploads/2022/01/starlink-musteri-sayisi-835.jpg
Upvotes: 1