在python中有效獲取url的狀態代碼，替換for-loop

Question

我想查看一個網址列表（在數據框df的列中）以獲取其狀態代碼（404,403和200似乎是有趣的）。 我定義了一個完成這項工作的功能。 但是，它使用效率低下的for循環（我有一長串網址！）。

有沒有人提示如何更有效地做到這一點？ 最佳地，返回的狀態代碼也將顯示在數據幀的新列中，例如df ['status_code_url']。

def url_access(df, column):
    e_404 =0
    e_403 =0
    e_200 =0
    for i in range(0, len(df)):
        if requests.head(df[column][i]).status_code == 404:
            e_404= e_404+1
        elif requests.head(df[column][i]).status_code == 403:
            e_403 = e_403 +1
        elif requests.head(df[column][i]).status_code == 200:
            e_200 = e_200 +1
        else:
            print(requests.head(df[column][i]).status_code)

    return ("Statistics about " + column , '{:.1%}'.format(e_404/len(df)) 
            + " of links to intagram post return 404", '{:.1%}'.format(e_403/len(df)) 
            + " of links to intagram post return 403", '{:.1%}'.format(e_200/len(df)) 
            + " of links to intagram post return 200")

非常感謝！

Answer 1

使用Pandas ， apply和groupby -

def url_access(x):
    return requests.head(x).status_code


df['Status'] = df['url'].apply(url_access)

dfcount = df.groupby('Status')['url'].count().reset_index()

Answer 2

基本上，你的任務似乎是：

獲取網址狀態代碼
收集所有的回復
計算百分比

對於第一步，您使用：

def get_code(url):
    return requests.head(url).status_code

第二步，將此功能應用於dataframe列，請參閱https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html

resp_df = df[column].apply(get_code, axis=1)

對於第三步，您可以使用列上的opertions來計算百分比：

resp_df[resp_df == 404].sum() / len (resp_df)

（注意代碼沒有運行）

Answer 3

pandas.DataFrame.apply （或者更確切地說，正常的requests庫）一次只能發出一個請求。 要並行執行多個請求，您可以使用requests_futures （使用pip install requests-futures安裝它）：

import pandas as pd
from requests_futures.sessions import FuturesSession

def get_request(url):
    session = FuturesSession()
    return session.head(url)


def get_status_code(r):
    return r.result().status_code

if __name__ == "__main__":
    urls = ['http://python-requests.org',
            'http://httpbin.org',
            'http://python-guide.org',
            'http://kennethreitz.com']
    df = pd.DataFrame({"url": urls})
    df["status_code"] = df["url"].apply(get_request).apply(get_status_code)

之后你可以使用例如groupby ，正如@Aritesh在他們的回答中所建議的那樣：

stats = df.groupby('status_code')['url'].count().reset_index()
print(stats)
#    status_code  url
  0          200    1
  1          301    3

有了這個，您可能還想添加一些防止連接錯誤和超時的保護：

import numpy as np
import requests

def get_request(url):
    session = FuturesSession()
    return session.head(url, timeout=1)

def get_status_code(r):
    try:
        return r.result().status_code
    except (requests.exceptions.ConnectionError, requests.exceptions.ReadTimeout):
        return 408 # Request Timeout

ips = np.random.randint(0, 256, (1000, 4))
df = pd.DataFrame({"url": ["http://" + ".".join(map(str, ip)) for ip in ips]})
df["status_code"] = df["url"].apply(get_request).apply(get_status_code)
df.groupby('status_code')['url'].count().reset_index()
#    status_code  url
# 0          200    3
# 1          302    2
# 2          400    2
# 3          401    1
# 4          403    1
# 5          404    1
# 6          408  990

在python中有效獲取url的狀態代碼，替換for-loop

問題描述

3 個解決方案

解決方案1
3 2018-04-18 12:10:09

解決方案2
0 2018-04-18 12:17:56

解決方案3
0 已采納 2018-04-18 12:31:01

在python中有效獲取url的狀態代碼，替換for-loop

問題描述

3 個解決方案

解決方案1 3 2018-04-18 12:10:09

解決方案2 0 2018-04-18 12:17:56

解決方案3 0 已采納 2018-04-18 12:31:01

解決方案1
3 2018-04-18 12:10:09

解決方案2
0 2018-04-18 12:17:56

解決方案3
0 已采納 2018-04-18 12:31:01