如何抓取網頁並從中提取信息？

Question

作為一名化學專業的學生，我必須反復查找分子並獲取它們的 SMILES 字符串。 SMILES 字符串是一種機制，可以幫助我們在各種化學軟件中重新創建分子。

例如，考慮丙氨酸。 我將搜索丙氨酸和 go 到PubChem 鏈接。 在那里，我將查找“Canonical SMILES”部分，並將 SMILES 字符串復制粘貼到我正在使用的代碼中。

如果只是一個分子，我還不如做上面的。 但是，我現在必須對 20 個分子執行此操作。 這似乎需要大量的谷歌搜索、點擊和復制粘貼。

有沒有辦法自動化這個過程？ 是否有可用於此類過程的 python 庫？ 你能在網頁信息上使用 grep/awk 做同樣的技巧嗎？

Answer 1

我用來抓取網頁的模塊可能會有所幫助？ 所有其他 web 抓取模塊都非常復雜，但功能更多。 requests 模塊只是從網站獲取確切的數據，如果您抓取 a.html 文檔，它將返回類似於<html><head><title>test</title></head></html>的內容，只是原始數據。 它可能對獲取更多信息更有幫助，但如果您只想要頁面的特定部分，它可能會更令人沮喪。

使用它的代碼看起來像這樣

import requests

data = requests.get("google.com")
print(data)

在您執行任何此操作之前，大多數網站都有一個 API 可以在您的代碼中從該站點准確返回您需要的數據，如果他們有一個 API，在頁腳中應該有一個開發人員鏈接

返回 html 文檔。 （確保 pip 安裝請求！）

如何抓取網頁並從中提取信息？

問題描述

1 個解決方案

解決方案1
0 2021-01-15 22:18:47

如何抓取網頁並從中提取信息？

問題描述

1 個解決方案

解決方案1 0 2021-01-15 22:18:47

解決方案1
0 2021-01-15 22:18:47