簡體   English   中英

如何抓取網頁並從中提取信息?

[英]How to scrape webpages and extract information from them?

作為一名化學專業的學生,我必須反復查找分子並獲取它們的 SMILES 字符串。 SMILES 字符串是一種機制,可以幫助我們在各種化學軟件中重新創建分子。

例如,考慮丙氨酸。 我將搜索丙氨酸和 go 到PubChem 鏈接 在那里,我將查找“Canonical SMILES”部分,並將 SMILES 字符串復制粘貼到我正在使用的代碼中。

如果只是一個分子,我還不如做上面的。 但是,我現在必須對 20 個分子執行此操作。 這似乎需要大量的谷歌搜索、點擊和復制粘貼。

有沒有辦法自動化這個過程? 是否有可用於此類過程的 python 庫? 你能在網頁信息上使用 grep/awk 做同樣的技巧嗎?

我用來抓取網頁的模塊可能會有所幫助? 所有其他 web 抓取模塊都非常復雜,但功能更多。 requests 模塊只是從網站獲取確切的數據,如果您抓取 a.html 文檔,它將返回類似於<html><head><title>test</title></head></html>的內容,只是原始數據。 它可能對獲取更多信息更有幫助,但如果您只想要頁面的特定部分,它可能會更令人沮喪。

使用它的代碼看起來像這樣

import requests

data = requests.get("google.com")
print(data)

在您執行任何此操作之前,大多數網站都有一個 API 可以在您的代碼中從該站點准確返回您需要的數據,如果他們有一個 API,在頁腳中應該有一個開發人員鏈接

返回 html 文檔。 (確保 pip 安裝請求!)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM