簡體   English   中英

從 BigQuery 讀入 Pandas DataFrame 和性能問題

[英]Reading from BigQuery into a Pandas DataFrame and performance issues

我正在從 BQ 讀取大約 4M(百萬)行到 dataframe,但我發現它似乎不再有效。 由於我無法確定發生了某些變化,我想知道是否需要對代碼進行任何更改以使其性能更高?

我的代碼如下:

def get_df_categories(table_name):
    query = """
    select cat, ref, engine from `{table_name}`
    """.format(table_name=table_name)
    df = client.query(query).to_dataframe()
    return df

最好通過 list_rows 方法分批閱讀。 這樣你可以嘗試使用多線程來讀取固定大小的數據。 這將幫助您更快地查看 output,並且您將能夠以系統的方式處理繁重的數據負載。 您還可以傳遞希望在 output 中看到的字段。這會復制 sql 查詢中的 select 子句中的列名。 這是可幫助您入門的文檔。 https://googleapis.dev/python/bigquery/latest/generated/google.cloud.bigquery.client.Client.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM