如何制作從大型 xlsx 文件加載 pandas DataFrame 的進度條？

Question

import pandas as pd
import numpy as np
from tqdm import tqdm

df = pd.DataFrame(np.random.randint(0, 100, (100000, 6)))
tqdm.pandas(desc="my bar!")p`
df.progress_apply(lambda x: x**2)

我拿了這段代碼並對其進行了編輯，以便我從 load_excel 創建一個 DataFrame 而不是使用隨機數：

import pandas as pd
from tqdm import tqdm
import numpy as np

filename="huge_file.xlsx"
df = pd.DataFrame(pd.read_excel(filename))
tqdm.pandas()
df.progress_apply(lambda x: x**2)

這給了我一個錯誤，所以我將 df.progress_apply 更改為：

df.progress_apply(lambda x: x)

這是最終代碼：

import pandas as pd
from tqdm import tqdm
import numpy as np

filename="huge_file.xlsx"
df = pd.DataFrame(pd.read_excel(filename))
tqdm.pandas()
df.progress_apply(lambda x: x)

這會產生一個進度條，但它實際上並沒有顯示任何進度，而是加載了進度條，並且在操作完成后跳到 100%，這違背了目的。

我的問題是：如何讓這個進度條工作？
progress_apply 中的 function 實際上是做什么的？
有更好的方法嗎？ 也許是 tqdm 的替代品？

任何幫助是極大的贊賞。

Answer 1

不管用。 pd.read_excel阻塞，直到文件被讀取，並且無法從該函數獲取有關其執行過程中進度的信息。

它適用於您可以按塊進行的讀取操作，例如

chunks = []
for chunk in pd.read_csv(..., chunksize=1000):
    update_progressbar()
    chunks.append(chunk)

但據我所知tqdm還需要提前知道塊的數量，因此對於正確的進度報告，您需要先閱讀完整文件....

Answer 2

以下是使用 tqdm 的單行解決方案：

import pandas as pd
from tqdm import tqdm

df = pd.concat([chunk for chunk in tqdm(pd.read_csv(file_name, chunksize=1000), desc='Loading data')])

如果您知道要加載的總行數，則可以將該信息與參數total添加到 tqdm 函數中，得到百分比 output。

Answer 3

免責聲明：這僅適用於xlrd引擎並且沒有經過徹底測試！

這個怎么運作？ 我們猴子補丁xlrd.xlsx.X12Sheet.own_process_stream方法負責從類文件流加載工作表。 我們提供自己的流，其中包含我們的進度條。 每個工作表都有自己的進度條。

當我們想要進度條時，我們使用load_with_progressbar()上下文管理器，然后執行pd.read_excel('<FILE.xlsx>') 。

import xlrd
from tqdm import tqdm
from io import RawIOBase
from contextlib import contextmanager


class progress_reader(RawIOBase):
    def __init__(self, zf, bar):
        self.bar = bar
        self.zf = zf

    def readinto(self, b):
        n = self.zf.readinto(b)
        self.bar.update(n=n)
        return n


@contextmanager
def load_with_progressbar():

    def my_get_sheet(self, zf, *other, **kwargs):
        with tqdm(total=zf._orig_file_size) as bar:
            sheet = _tmp(self, progress_reader(zf, bar), **kwargs)
        return sheet

    _tmp = xlrd.xlsx.X12Sheet.own_process_stream

    try:
        xlrd.xlsx.X12Sheet.own_process_stream = my_get_sheet
        yield
    finally:
        xlrd.xlsx.X12Sheet.own_process_stream = _tmp


import pandas as pd

with load_with_progressbar():
    df = pd.read_excel('sample2.xlsx')

print(df)

進度條截圖：

Answer 4

這可能對有類似問題的人有所幫助。 在這里你可以獲得幫助

例如：

for i in tqdm(range(0,3), ncols = 100, desc ="Loading data.."): 
    df=pd.read_excel("some_file.xlsx",header=None)
    LC_data=pd.read_excel("some_file.xlsx",'Sheet1', header=None)
    FC_data=pd.read_excel("some_file.xlsx",'Shee2', header=None)    
print("------Loading is completed ------")

Answer 5

以下是根據網友rocksportrocker的優秀回答。

我是Python初學者！
下面請看我使用rocksportrocker用戶推薦的第一個版本。

import pandas as pd

print("Info: Loading starting.")

# https://stackoverflow.com/questions/52209290
temp = [];
myCounter = 1;
myChunksize = 10000;
# https://stackoverflow.com/questions/24251219/
for myChunk in pd.read_csv('YourFileName.csv', chunksize = myChunksize, low_memory = False):
    print('# of rows processed: ', myCounter*myChunksize)
    myCounter = myCounter + 1;
    temp.append(myChunk)
    
print("Info: Loading complete.")

# https://stackoverflow.com/questions/33642951
df = pd.concat(temp, ignore_index = True)
df.head()

如何制作從大型 xlsx 文件加載 pandas DataFrame 的進度條？

問題描述

5 個解決方案

解決方案1
5 2018-09-06 18:26:11

解決方案2
4 2022-04-08 08:53:50

解決方案3
2 2020-05-31 17:24:47

解決方案4
1 2021-03-03 12:04:37

解決方案5
1 2022-02-20 21:42:00

如何制作從大型 xlsx 文件加載 pandas DataFrame 的進度條？

問題描述

5 個解決方案

解決方案1 5 2018-09-06 18:26:11

解決方案2 4 2022-04-08 08:53:50

解決方案3 2 2020-05-31 17:24:47

解決方案4 1 2021-03-03 12:04:37

解決方案5 1 2022-02-20 21:42:00

解決方案1
5 2018-09-06 18:26:11

解決方案2
4 2022-04-08 08:53:50

解決方案3
2 2020-05-31 17:24:47

解決方案4
1 2021-03-03 12:04:37

解決方案5
1 2022-02-20 21:42:00