![](/img/trans.png)
[英]BigQuery load job from pandas dataframe timestamp column reading as unix nanoseconds, not microseconds
[英]Reading from BigQuery into a Pandas DataFrame and performance issues
我正在從 BQ 讀取大約 4M(百萬)行到 dataframe,但我發現它似乎不再有效。 由於我無法確定發生了某些變化,我想知道是否需要對代碼進行任何更改以使其性能更高?
我的代碼如下:
def get_df_categories(table_name):
query = """
select cat, ref, engine from `{table_name}`
""".format(table_name=table_name)
df = client.query(query).to_dataframe()
return df
最好通過 list_rows 方法分批閱讀。 這樣你可以嘗試使用多線程來讀取固定大小的數據。 這將幫助您更快地查看 output,並且您將能夠以系統的方式處理繁重的數據負載。 您還可以傳遞希望在 output 中看到的字段。這會復制 sql 查詢中的 select 子句中的列名。 這是可幫助您入門的文檔。 https://googleapis.dev/python/bigquery/latest/generated/google.cloud.bigquery.client.Client.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.