[英]pyarrow: fast way to iterate ChunkedArray? (from a table)
該數組包含 python 個對象,是表格的一部分。 我需要按元素執行計算。 計算本身返回一個數字列表,這些數字應該是表中的新列。 我查看了文檔,但無論如何都看不到迭代 pyarrow 數組? 有沒有辦法或者我必須先將它轉換為 numpy 數組? (這就是用戶定義函數的文檔示例所顯示的內容) ...
[英]pyarrow: fast way to iterate ChunkedArray? (from a table)
該數組包含 python 個對象,是表格的一部分。 我需要按元素執行計算。 計算本身返回一個數字列表,這些數字應該是表中的新列。 我查看了文檔,但無論如何都看不到迭代 pyarrow 數組? 有沒有辦法或者我必須先將它轉換為 numpy 數組? (這就是用戶定義函數的文檔示例所顯示的內容) ...
[英]Read mutliple parquet files to pandas with select columns where select columns exist
運行以下命令時,由於某些文件缺少所需的列,我遇到了錯誤 li = [] for filename in parquet_filtered_list: df = pd.read_parquet(filename, columns = list ...
[英]How do I get page level data of a parquet file with pyarrow?
給定一個ParquetFile object( 文檔),我能夠使用read_row_group或metadata屬性在行組/列塊級別檢索數據: 但我不能 go 更進一步。 是否有可能獲得鑲木地板文檔中概述的頁面相關信息(頁面 header,重復級別,定義級別和值)? 注意:我對此很感興趣,以了解 ...
[英]Faster way to fetch rows from one dataframe based on values from another
我有一個 dataframe (df_lookup) 有 2 列,另一個 dataframe (df_master) 有超過 100 列。 如果 df_lookup 中存在的兩列的值在 df_master 中匹配,我希望能夠將 df_master 中的所有行拉入第三個 dataframe。 我目前正 ...
[英]Arrow related error when pushing dataset to Hugging-face hub
賞金將在 7 天后到期。 此問題的答案有資格獲得+50聲望賞金。 Tsadoq想讓更多人關注這個問題: 為這個問題找到一個可行的解決方案我的數據集有很多問題: (未來)數據集是我從泡菜文件加載的 pandas dataframe,pandas 數據集的行為正確。 我的代碼是: 因為我認為這是 ...
[英]AttributeError: module 'google.cloud.bigquery._helpers' has no attribute 'PYARROW_VERSIONS'
在 GCP jupyterlab 中運行以下導入命令時出現錯誤: 代碼: 錯誤: AttributeError Traceback (最近調用 last) /tmp/ipykernel_5450/3407211047.py in 1 from google.cloud import storag ...
[英]Why can Pyarrow read additional index column while Pandas dataframe cannot?
我有以下代碼: output 是: 只是好奇,為什么 Pandas dataframe忽略__null_dask_index__列名? 或者__null_dask_index__不被視為一列? ...
[英]less_equal not working like I expect (pyarrow.compute.less_equal)
我正在嘗試調試我在使用 pyarrow 時遇到的這個問題。 請參閱此代碼段: 我看到的是第二個斷言失敗但不是第一個(在某些情況下)。 這真的很奇怪,因為兩個比較操作應該是等價的...... 這是發生這種情況時打印輸出中的 output: 關於我做錯了什么的任何想法? 我原以為第一個斷言會在第二個斷 ...
[英]Writing a parquet file from python that is compatible for SQL/Impala
我正在嘗試將 pandas Dataframe 寫入與 Impala 中的表兼容的鑲木地板文件,但我正在努力尋找解決方案。 我的 df 有 3 列 當我將它創建到鑲木地板文件中並將其加載到 impala 中時,python 模式被保留並且它失敗了。 我希望鑲木地板使用以下模式保存: 我試過這個: 但 ...
[英]pyarrow: Parse non-standard date
我有一個 CSV 文件,其中包含使用非標准日期格式的列,需要稍微清理一下。 我如何將其解析為 pyarrow 並寫入鑲木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但沒有指定日期) %Y0000例如: 19990000 (僅指定年份 ...
[英]How to convert csv to parquet using pandas?
我想將我的 CSV 文件轉換為鑲木地板文件。 無論chunksize參數如何,我下面的代碼都會導致我的 kernel 被殺死。 我不知道文件中的行數 x 列數,但我懷疑我有很多列。 什么是理想的解決方案? 使用 Pandas: 隨着時間: ...
[英]Date not writing to parquet file as expected
我有一個問題,日期在從 Pandas df 寫入鑲木地板文件后沒有按預期顯示。 以下是我的工作流程的簡要說明: Step1: Parquet file1 位於存儲賬戶中,可以使用 Synapse serverless SQL 查詢。當 Date 列中的查詢值顯示為預期即 2022-01-01 (y ...
[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?
我想分片箭頭數據集。 為此,我想使用單調遞增的字段並在以下過濾器中實現分片操作,我可以在 pyarrow 掃描儀中使用它: pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法? ...
[英]Most efficient way to read a huge parquet file into memory in Python
理想情況下,我希望將數據保存在字典中。 在這種情況下,我什至不確定字典是否比 dataframe 更好。 經過一些研究,我發現了以下將 parquet 文件讀入 memory 的方法: Pyarrow(Apache 箭頭的 Python API): 使用 pyarrow,我可以將鑲木地板文件讀入 ...
[英]Connect python-polars to SQL server (no support currently)
如何將 MS SQL 服務器直接連接到 polars? 該文檔未列出任何支持的連接,但建議使用 pandas。 更新: SQL 服務器身份驗證按答案工作,但 Windows 域身份驗證不起作用。 見問題 ...
[英]How to share zero copy dataframes between processes with PyArrow
我正在嘗試研究如何使用 PyArrow 在進程之間共享數據(希望在某個階段共享 pandas DataFrames)。 我正處於一個相當實驗性的(閱讀:新手)階段,正在嘗試弄清楚如何使用 PyArrow。 我有點卡住了,需要幫助。 通過文檔,我找到了一個創建緩沖區的示例import time imp ...
[英]AttributeError: module 'dill._dill' has no attribute 'log'
我正在使用 python nlp 模塊來訓練數據集並遇到以下錯誤: AttributeError: 模塊 'dill._dill' 沒有屬性 'log' 我注意到類似的帖子,其中沒有遇到屬性“擴展”和屬性“堆棧”,我想知道這是否是類似的情況。 我試過運行這個: pip 安裝蒔蘿 --upgra ...
[英]pyarrow table to parquet conversion changing blank space into ''
我正在嘗試將 pyarrow 表轉換為鑲木地板文件。 在此轉換過程中,表中字符串字段的空值被轉換為“”(空白)我只想將其保留為空值。 預期的: 我現在得到的是: ...
[英]Parquet File re-write has slightly larger size in both Pandas / PyArrow
所以我試圖將鑲木地板文件讀入 memory,選擇文件塊並將其上傳到 AWS S3 Bucket。 我想編寫健全性測試以通過大小檢查或MD5 hash 檢查存儲桶上的本地文件和雲文件來檢查文件是否已正確上傳。 我注意到的一件事是,將文件讀入 memory,無論是bytes還是pd.DataFrame ...
[英]how to reorder columns in pyarrow table
我有 pyarrow 表,其列順序為 ['A', 'B', 'C', 'D'] 我想將此 pyarrow 表的順序更改為 ['B', 'D', 'C', ' A'] 我們可以像 pandas dataframe 這樣重新排序 pyarrows 表嗎? ...