簡體   English   中英

提取 python 中標簽之間的內容

[英]Extract content between tags in python

我正在嘗試獲取兩個標簽之間的內容。 我在我的代碼中使用beautifulsoup ,正如我在這個問題上閱讀的那樣我的代碼是下一個:

 soup3 = BeautifulSoup(html,'html.parser')
 scripts=soup3.find_all('script')
 os.mkdir(path)
 for nonce in scripts:
    if nonce.has_attr('nonce'):
        #print(str(nonce.text.strip()).find('data:image/jpeg;base64'))
        #print(str(nonce.text.strip()).find('image'))

        if str(nonce).strip().find("data:image/jpeg;base64")>0 or str(nonce).strip().find("data:image/png;base64")>0:
         #print(str(nonce).strip())
         print(nonce.text)

…………

如果我執行 if 語句來檢查內部是否有 data:image 字符串,那么如果我按照我對代碼的操作進行操作,但如果我編寫代碼str(nonce.text.strip()).find('data:image/jpeg;base64')我什么也沒得到,也不知道為什么。 那么我該如何獲取腳本標簽之間的內容。 我現在擁有的 output 的一個例子是:

<script nonce="rq3guNaaFH7Hd30OJWKD3Q==">(function(){var s='\x3d\x3d';var ii=['dimg_44'];_setImagesSrc(ii,s);})();</script>

我想要它沒有標簽。 謝謝

您可以使用split()strip()刪除標簽。

s = '''<script nonce="rq3guNaaFH7Hd30OJWKD3Q==">whatever here</script>'''

r = s.split('<script')[1].split('>')[1].strip('</script>')
print(r) #whatever here

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM