簡體   English   中英

使用Python從網站檢索源代碼

[英]Retrieving source code from a website with Python

我一直在嘗試從網站中提取鏈接而沒有運氣。 從我所讀的內容中可以很容易地做到這一點,但是鏈接帶有網站內的彈出對話框。 我可以獲取鏈接的唯一方法是ctrl-A並查看要復制的源。

是否有辦法在獲取全部內容之前全選?

感謝任何信息或指針!

編輯我想避免下載python已經沒有的東西,例如BS / Scrapy等。

據檢索鏈接而言,可以用做請求BS4由jonrsharpe的建議。 我很高興回答這個問題,因為我在1或2天前寫了其中一篇。

from sys import argv
import requests
from bs4 import BeautifulSoup
#from notify2 import notify2
from time import sleep
import notify2
def send_message(title, message):
    notify2.init("Init")
    notice = notify2.Notification(title, message)
    notice.show()
    return

url = "http://stackoverflow.com/feeds/tag?tagnames=%s&sort=newest" % argv[1]
while True:
    r = requests.get(url)
    while r.status_code is not 200:
            r = requests.get(url)
    soup = BeautifulSoup(r.text)
    data = soup.find_all("link")
    question = data[2].get('href')
    question = question[question.find('questions') + 19:]
    send_message("Question %s: " % argv[1].upper(), question)
    sleep(60)

基本上,該腳本可以每1分鍾向您發送一次桌面通知。 顯示的數據是指定的stackoverflow標簽第一個問題 (在大多數情況下,它工作得很好,您必須在其他情況下檢查網址是否正確)
在這里,您可以訪問URL並使用bs4 requests.get()獲取所有數據,並使用bs4提供的不同方法來解析這些數據
順便說一句,此代碼的存儲庫在此處 任何貢獻將不勝感激。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM