cost 194 ms
pyarrow:迭代 ChunkedArray 的快速方法? (來自一張桌子)

[英]pyarrow: fast way to iterate ChunkedArray? (from a table)

該數組包含 python 個對象,是表格的一部分。 我需要按元素執行計算。 計算本身返回一個數字列表,這些數字應該是表中的新列。 我查看了文檔,但無論如何都看不到迭代 pyarrow 數組? 有沒有辦法或者我必須先將它轉換為 numpy 數組? (這就是用戶定義函數的文檔示例所顯示的內容) ...

如何使用 pyarrow 獲取鑲木地板文件的頁面級數據?

[英]How do I get page level data of a parquet file with pyarrow?

給定一個ParquetFile object( 文檔),我能夠使用read_row_group或metadata屬性在行組/列塊級別檢索數據: 但我不能 go 更進一步。 是否有可能獲得鑲木地板文檔中概述的頁面相關信息(頁面 header,重復級別,定義級別和值)? 注意:我對此很感興趣,以了解 ...

將數據集推送到 Hugging-face hub 時出現箭頭相關錯誤

[英]Arrow related error when pushing dataset to Hugging-face hub

賞金將在 7 天后到期。 此問題的答案有資格獲得+50聲望賞金。 Tsadoq想讓更多人關注這個問題: 為這個問題找到一個可行的解決方案我的數據集有很多問題: (未來)數據集是我從泡菜文件加載的 pandas dataframe,pandas 數據集的行為正確。 我的代碼是: 因為我認為這是 ...

AttributeError:模塊“google.cloud.bigquery._helpers”沒有屬性“PYARROW_VERSIONS”

[英]AttributeError: module 'google.cloud.bigquery._helpers' has no attribute 'PYARROW_VERSIONS'

在 GCP jupyterlab 中運行以下導入命令時出現錯誤: 代碼: 錯誤: AttributeError Traceback (最近調用 last) /tmp/ipykernel_5450/3407211047.py in 1 from google.cloud import storag ...

less_equal 沒有像我預期的那樣工作(pyarrow.compute.less_equal)

[英]less_equal not working like I expect (pyarrow.compute.less_equal)

我正在嘗試調試我在使用 pyarrow 時遇到的這個問題。 請參閱此代碼段: 我看到的是第二個斷言失敗但不是第一個(在某些情況下)。 這真的很奇怪,因為兩個比較操作應該是等價的...... 這是發生這種情況時打印輸出中的 output: 關於我做錯了什么的任何想法? 我原以為第一個斷言會在第二個斷 ...

從 python 編寫一個與 SQL/Impala 兼容的鑲木地板文件

[英]Writing a parquet file from python that is compatible for SQL/Impala

我正在嘗試將 pandas Dataframe 寫入與 Impala 中的表兼容的鑲木地板文件,但我正在努力尋找解決方案。 我的 df 有 3 列 當我將它創建到鑲木地板文件中並將其加載到 impala 中時,python 模式被保留並且它失敗了。 我希望鑲木地板使用以下模式保存: 我試過這個: 但 ...

pyarrow:解析非標准日期

[英]pyarrow: Parse non-standard date

我有一個 CSV 文件,其中包含使用非標准日期格式的列,需要稍微清理一下。 我如何將其解析為 pyarrow 並寫入鑲木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但沒有指定日期) %Y0000例如: 19990000 (僅指定年份 ...

如何使用 pandas 將 csv 轉換為鑲木地板?

[英]How to convert csv to parquet using pandas?

我想將我的 CSV 文件轉換為鑲木地板文件。 無論chunksize參數如何,我下面的代碼都會導致我的 kernel 被殺死。 我不知道文件中的行數 x 列數,但我懷疑我有很多列。 什么是理想的解決方案? 使用 Pandas: 隨着時間: ...

日期未按預期寫入鑲木地板文件

[英]Date not writing to parquet file as expected

我有一個問題,日期在從 Pandas df 寫入鑲木地板文件后沒有按預期顯示。 以下是我的工作流程的簡要說明: Step1: Parquet file1 位於存儲賬戶中,可以使用 Synapse serverless SQL 查詢。當 Date 列中的查詢值顯示為預期即 2022-01-01 (y ...

如何使用 PyArrow 表達式 API 實現模運算以便我可以在過濾器中使用它?

[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭頭數據集。 為此,我想使用單調遞增的字段並在以下過濾器中實現分片操作,我可以在 pyarrow 掃描儀中使用它: pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法? ...

在 Python 中將巨大的鑲木地板文件讀入 memory 的最有效方法

[英]Most efficient way to read a huge parquet file into memory in Python

理想情況下,我希望將數據保存在字典中。 在這種情況下,我什至不確定字典是否比 dataframe 更好。 經過一些研究,我發現了以下將 parquet 文件讀入 memory 的方法: Pyarrow(Apache 箭頭的 Python API): 使用 pyarrow,我可以將鑲木地板文件讀入 ...

如何使用 PyArrow 在進程之間共享零拷貝數據幀

[英]How to share zero copy dataframes between processes with PyArrow

我正在嘗試研究如何使用 PyArrow 在進程之間共享數據(希望在某個階段共享 pandas DataFrames)。 我正處於一個相當實驗性的(閱讀:新手)階段,正在嘗試弄清楚如何使用 PyArrow。 我有點卡住了,需要幫助。 通過文檔,我找到了一個創建緩沖區的示例import time imp ...

AttributeError: 模塊 'dill._dill' 沒有屬性 'log'

[英]AttributeError: module 'dill._dill' has no attribute 'log'

我正在使用 python nlp 模塊來訓練數據集並遇到以下錯誤: AttributeError: 模塊 'dill._dill' 沒有屬性 'log' 我注意到類似的帖子,其中沒有遇到屬性“擴展”和屬性“堆棧”,我想知道這是否是類似的情況。 我試過運行這個: pip 安裝蒔蘿 --upgra ...

pyarrow 表到 parquet 轉換將空格更改為 ''

[英]pyarrow table to parquet conversion changing blank space into ''

我正在嘗試將 pyarrow 表轉換為鑲木地板文件。 在此轉換過程中,表中字符串字段的空值被轉換為“”(空白)我只想將其保留為空值。 預期的: 我現在得到的是: ...

Parquet 文件重寫在 Pandas / PyArrow 中的尺寸略大

[英]Parquet File re-write has slightly larger size in both Pandas / PyArrow

所以我試圖將鑲木地板文件讀入 memory,選擇文件塊並將其上傳到 AWS S3 Bucket。 我想編寫健全性測試以通過大小檢查或MD5 hash 檢查存儲桶上的本地文件和雲文件來檢查文件是否已正確上傳。 我注意到的一件事是,將文件讀入 memory,無論是bytes還是pd.DataFrame ...

如何重新排列pyarrow表中的列

[英]how to reorder columns in pyarrow table

我有 pyarrow 表,其列順序為 ['A', 'B', 'C', 'D'] 我想將此 pyarrow 表的順序更改為 ['B', 'D', 'C', ' A'] 我們可以像 pandas dataframe 這樣重新排序 pyarrows 表嗎? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM