在文本文件中下載目標鏈接html（Beautiful Soup - Python3）

Question

我是python和學習Web爬行的新手。

我正在嘗試在文本頁面中下載單個目標鏈接。
到目前為止，我成功地提取了我需要的所有目標URL，但不知道如何在文本文件中下載所有目標HTML文本。

有人能給我一個大致的想法。

url = ""
r  = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
link1 = soup2.find_all('a', href=re.compile("drupal_lists"))
for t in link1:
    print(t.attrs['href'])

Answer 1

在for循環中，使用請求lib訪問鏈接URL並將內容寫入文件。 就像是：

link_data = requests.get(t.attrs['href']).text
with open('file_to_write.out', 'w') as f:
  f.write(link_data)

您可能想要更改每個鏈接的文件名。

在文本文件中下載目標鏈接html（Beautiful Soup - Python3）

問題描述

1 個解決方案

解決方案1
0 已采納 2016-11-06 03:21:58

在文本文件中下載目標鏈接html（Beautiful Soup - Python3）

問題描述

1 個解決方案

解決方案1 0 已采納 2016-11-06 03:21:58

解決方案1
0 已采納 2016-11-06 03:21:58