簡體   English   中英

在文本文件中下載目標鏈接html(Beautiful Soup - Python3)

[英]Downloading target link html in a text file (Beautiful Soup - Python3)

我是python和學習Web爬行的新手。

我正在嘗試在文本頁面中下載單個目標鏈接。
到目前為止,我成功地提取了我需要的所有目標URL,但不知道如何在文本文件中下載所有目標HTML文本。

有人能給我一個大致的想法。

url = ""
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
    print(t.attrs['href'])

在for循環中,使用請求lib訪問鏈接URL並將內容寫入文件。 就像是:

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能想要更改每個鏈接的文件名。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM