從 BigQuery 讀入 Pandas DataFrame 和性能問題

Question

我正在從 BQ 讀取大約 4M（百萬）行到 dataframe，但我發現它似乎不再有效。 由於我無法確定發生了某些變化，我想知道是否需要對代碼進行任何更改以使其性能更高？

我的代碼如下：

def get_df_categories(table_name):
    query = """
    select cat, ref, engine from `{table_name}`
    """.format(table_name=table_name)
    df = client.query(query).to_dataframe()
    return df

Answer 1

最好通過 list_rows 方法分批閱讀。 這樣你可以嘗試使用多線程來讀取固定大小的數據。 這將幫助您更快地查看 output，並且您將能夠以系統的方式處理繁重的數據負載。 您還可以傳遞希望在 output 中看到的字段。這會復制 sql 查詢中的 select 子句中的列名。 這是可幫助您入門的文檔。 https://googleapis.dev/python/bigquery/latest/generated/google.cloud.bigquery.client.Client.html

從 BigQuery 讀入 Pandas DataFrame 和性能問題

問題描述

1 個解決方案

解決方案1
0 2022-03-31 16:10:41

從 BigQuery 讀入 Pandas DataFrame 和性能問題

問題描述

1 個解決方案

解決方案1 0 2022-03-31 16:10:41

解決方案1
0 2022-03-31 16:10:41