標簽[pyarrow] - 堆棧內存溢出

[英]pyarrow: fast way to iterate ChunkedArray? (from a table)

該數組包含 python 個對象，是表格的一部分。我需要按元素執行計算。計算本身返回一個數字列表，這些數字應該是表中的新列。我查看了文檔，但無論如何都看不到迭代 pyarrow 數組？有沒有辦法或者我必須先將它轉換為 numpy 數組？（這就是用戶定義函數的文檔示例所顯示的內容） ...

使用 select 列將多個鑲木地板文件讀取到 pandas，其中存在 select 列

[英]Read mutliple parquet files to pandas with select columns where select columns exist

運行以下命令時，由於某些文件缺少所需的列，我遇到了錯誤 li = [] for filename in parquet_filtered_list: df = pd.read_parquet(filename, columns = list ...

如何使用 pyarrow 獲取鑲木地板文件的頁面級數據？

[英]How do I get page level data of a parquet file with pyarrow?

給定一個ParquetFile object（文檔），我能夠使用read_row_group或metadata屬性在行組/列塊級別檢索數據：但我不能 go 更進一步。是否有可能獲得鑲木地板文檔中概述的頁面相關信息（頁面 header，重復級別，定義級別和值）？注意：我對此很感興趣，以了解 ...

根據另一個 dataframe 的值從一個 dataframe 獲取行的更快方法

[英]Faster way to fetch rows from one dataframe based on values from another

我有一個 dataframe (df_lookup) 有 2 列，另一個 dataframe (df_master) 有超過 100 列。如果 df_lookup 中存在的兩列的值在 df_master 中匹配，我希望能夠將 df_master 中的所有行拉入第三個 dataframe。我目前正 ...

將數據集推送到 Hugging-face hub 時出現箭頭相關錯誤

[英]Arrow related error when pushing dataset to Hugging-face hub

賞金將在 7 天后到期。此問題的答案有資格獲得+50聲望賞金。 Tsadoq想讓更多人關注這個問題：為這個問題找到一個可行的解決方案我的數據集有很多問題：（未來）數據集是我從泡菜文件加載的 pandas dataframe，pandas 數據集的行為正確。我的代碼是：因為我認為這是 ...

AttributeError：模塊“google.cloud.bigquery._helpers”沒有屬性“PYARROW_VERSIONS”

[英]AttributeError: module 'google.cloud.bigquery._helpers' has no attribute 'PYARROW_VERSIONS'

在 GCP jupyterlab 中運行以下導入命令時出現錯誤：代碼：錯誤： AttributeError Traceback (最近調用 last) /tmp/ipykernel_5450/3407211047.py in 1 from google.cloud import storag ...

為什么 Pyarrow 可以讀取額外的索引列而 Pandas dataframe 不能？

[英]Why can Pyarrow read additional index column while Pandas dataframe cannot?

我有以下代碼： output 是：只是好奇，為什么 Pandas dataframe忽略__null_dask_index__列名？或者__null_dask_index__不被視為一列？ ...

less_equal 沒有像我預期的那樣工作（pyarrow.compute.less_equal）

[英]less_equal not working like I expect (pyarrow.compute.less_equal)

我正在嘗試調試我在使用 pyarrow 時遇到的這個問題。請參閱此代碼段：我看到的是第二個斷言失敗但不是第一個（在某些情況下）。這真的很奇怪，因為兩個比較操作應該是等價的...... 這是發生這種情況時打印輸出中的 output：關於我做錯了什么的任何想法？我原以為第一個斷言會在第二個斷 ...

從 python 編寫一個與 SQL/Impala 兼容的鑲木地板文件

[英]Writing a parquet file from python that is compatible for SQL/Impala

我正在嘗試將 pandas Dataframe 寫入與 Impala 中的表兼容的鑲木地板文件，但我正在努力尋找解決方案。我的 df 有 3 列當我將它創建到鑲木地板文件中並將其加載到 impala 中時，python 模式被保留並且它失敗了。我希望鑲木地板使用以下模式保存：我試過這個：但 ...

pyarrow：解析非標准日期

[英]pyarrow: Parse non-standard date

我有一個 CSV 文件，其中包含使用非標准日期格式的列，需要稍微清理一下。我如何將其解析為 pyarrow 並寫入鑲木地板？格式是： %Y%m%d例如： 19991231 %Y%m00 ex: 19991200 (年和月，但沒有指定日期) %Y0000例如： 19990000 （僅指定年份 ...

如何使用 pandas 將 csv 轉換為鑲木地板？

[英]How to convert csv to parquet using pandas?

我想將我的 CSV 文件轉換為鑲木地板文件。無論chunksize參數如何，我下面的代碼都會導致我的 kernel 被殺死。我不知道文件中的行數 x 列數，但我懷疑我有很多列。什么是理想的解決方案？使用 Pandas：隨着時間： ...

日期未按預期寫入鑲木地板文件

[英]Date not writing to parquet file as expected

我有一個問題，日期在從 Pandas df 寫入鑲木地板文件后沒有按預期顯示。以下是我的工作流程的簡要說明： Step1: Parquet file1 位於存儲賬戶中，可以使用 Synapse serverless SQL 查詢。當 Date 列中的查詢值顯示為預期即 2022-01-01 (y ...

如何使用 PyArrow 表達式 API 實現模運算以便我可以在過濾器中使用它？

[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭頭數據集。為此，我想使用單調遞增的字段並在以下過濾器中實現分片操作，我可以在 pyarrow 掃描儀中使用它： pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法？ ...

在 Python 中將巨大的鑲木地板文件讀入 memory 的最有效方法

[英]Most efficient way to read a huge parquet file into memory in Python

理想情況下，我希望將數據保存在字典中。在這種情況下，我什至不確定字典是否比 dataframe 更好。經過一些研究，我發現了以下將 parquet 文件讀入 memory 的方法： Pyarrow（Apache 箭頭的 Python API）：使用 pyarrow，我可以將鑲木地板文件讀入 ...

python-polars連接SQL服務器（暫不支持）

[英]Connect python-polars to SQL server (no support currently)

如何將 MS SQL 服務器直接連接到 polars？該文檔未列出任何支持的連接，但建議使用 pandas。更新： SQL 服務器身份驗證按答案工作，但 Windows 域身份驗證不起作用。見問題 ...

如何使用 PyArrow 在進程之間共享零拷貝數據幀

[英]How to share zero copy dataframes between processes with PyArrow

我正在嘗試研究如何使用 PyArrow 在進程之間共享數據（希望在某個階段共享 pandas DataFrames）。我正處於一個相當實驗性的（閱讀：新手）階段，正在嘗試弄清楚如何使用 PyArrow。我有點卡住了，需要幫助。通過文檔，我找到了一個創建緩沖區的示例import time imp ...

AttributeError: 模塊 'dill._dill' 沒有屬性 'log'

[英]AttributeError: module 'dill._dill' has no attribute 'log'

我正在使用 python nlp 模塊來訓練數據集並遇到以下錯誤： AttributeError: 模塊 'dill._dill' 沒有屬性 'log' 我注意到類似的帖子，其中沒有遇到屬性“擴展”和屬性“堆棧”，我想知道這是否是類似的情況。我試過運行這個： pip 安裝蒔蘿 --upgra ...

pyarrow 表到 parquet 轉換將空格更改為 ''

[英]pyarrow table to parquet conversion changing blank space into ''

我正在嘗試將 pyarrow 表轉換為鑲木地板文件。在此轉換過程中，表中字符串字段的空值被轉換為“”（空白）我只想將其保留為空值。預期的：我現在得到的是： ...

Parquet 文件重寫在 Pandas / PyArrow 中的尺寸略大

[英]Parquet File re-write has slightly larger size in both Pandas / PyArrow

所以我試圖將鑲木地板文件讀入 memory，選擇文件塊並將其上傳到 AWS S3 Bucket。我想編寫健全性測試以通過大小檢查或MD5 hash 檢查存儲桶上的本地文件和雲文件來檢查文件是否已正確上傳。我注意到的一件事是，將文件讀入 memory，無論是bytes還是pd.DataFrame ...

如何重新排列pyarrow表中的列

[英]how to reorder columns in pyarrow table

我有 pyarrow 表，其列順序為 ['A', 'B', 'C', 'D'] 我想將此 pyarrow 表的順序更改為 ['B', 'D', 'C', ' A'] 我們可以像 pandas dataframe 這樣重新排序 pyarrows 表嗎？ ...