cost 243 ms
計算大 DataFrame 成對余弦相似度的最有效方法

[英]Most efficient way of computing pairwise cosine similarity for large DataFrame

我有一個由多列組成的 300.000 行pd.DataFrame ,其中一個是 50 維numpy形狀數組(1,50) ,如下所示: 然后,我生成一個具有相同形狀的新numpy數組(我們稱之為array2 ),並計算dataframe 的每一行與生成的數組之間的余弦相似度。 為此,我目前正在使用sk ...

Python 中非常大的 JSON 處理

[英]very large JSON handling in Python

我有一個非常大的 JSON 文件(~30GB,65e6 行),我想使用一些數據幀結構來處理它。 這個數據集當然不適合我的記憶,因此我最終想使用一些內存不足的解決方案,比如 dask 或 vaex。 我知道,為了做到這一點,我首先必須將它轉換成一種已經內存可映射的格式,如 hdf5(如果你對格式有建議 ...

多列過濾 VAEX 數據框,應用表達式並保存結果

[英]Multi-columns filter VAEX dataframe, apply expression and save result

我想將 VAEX 用於我的數據框的懶惰工作。 在快速開始使用 export big csv 和一些簡單的過濾器和 extract() 后,我的工作有了初始 df,其中包含 3 個主要列:cid1、cid2、cval1。 cid1 和 cid2 的每個組合都是一個包含一些行的工作集,其中 cval1 ...

拆分 vaex 列中的字符串列表 dataframe

[英]Splitting list of strings in a column of vaex dataframe

有一個 vaex dataframe,其列如下: 我想將這一列轉換為兩列,如下所示: 在 Vaex 中有什么辦法可以做到這一點嗎? ...

Vaex 中的串聯數據幀中的 Lambda function

[英]Lambda function in concatenated dataframes in Vaex

我有多個 tar 文件,每個文件中有多個 csv 文件。 我想打開所有 csv 文件作為vaex dataframe ,然后用lambda function 創建一個new column ,但出現以下錯誤。 我該怎么做? 錯誤: ...

在 Vaex 中正確格式化時間戳(從 UTC 偏移中刪除冒號)

[英]Correctly format timestamp in Vaex (Remove colon from UTC offset)

我在 vaex 中有一個 dataframe,我在使用時間戳格式時遇到了問題。 我似乎無法正確設置時間戳列的格式。 研究問題后,我得出的結論是我需要刪除 UTC 偏移量 (00:00) 中的冒號。 但我不知道該怎么做。 注意:我不知道如何制作樣本vaex dataframe,所以我制作了一個pan ...

將巨大的csv轉換為hdf5格式

[英]Convert huge csv to hdf5 format

我下載了 IBM 的Airline Reporting Carrier On-Time Performance Dataset ; 未壓縮的 CSV 是 84 GB。 我想使用 vaex 庫運行一個分析,類似於Flying high with Vaex 。 我嘗試將 CSV 轉換為 hdf5 文件, ...

Vaex Dataframe - 計算字段上的 Groupby - 引發錯誤

[英]Vaex Dataframe - Groupby on a calculated field - throws error

我有以下 vaex dataframe “Amount_INR”列是使用使用 function 裝箱的其他三個屬性計算的: 我正在嘗試使用以下代碼執行 groupby 操作: 代碼拋出以下錯誤 ...

2022-09-12 15:34:08   1   16    vaex  
Vaex TypeError:預期的字符串或類似字節的 object

[英]Vaex TypeError: expected string or bytes-like object

當我使用 Vaex python 庫處理此數據集時,我收到TypeError: expected string or bytes-like object 。 我編寫了以下代碼: 當我這樣做時會出現問題 錯誤截圖當我使用 pandas 處理相同的數據集時,一切正常。 PS我認為問題在於將re.su ...

2022-09-06 06:54:57   1   19    python / vaex  
Vaex 中每個數據集條目的計算

[英]Calculation on every dataset entry in Vaex

我希望轉換數據集中的每一列,使其條目基於列的最小值/最大值介於 0 和 1 之間。 我用df.minmax(col_names)得到每列的最小/最大值,然后想找到列寬col_width = col_max - col_min 。 有了這個,我希望轉換數據df = (df - col_min)/col ...

如何通過 Vaex 計算每列的最大行值

[英]How to calculate the max row value for each column through Vaex

我有一個應用程序使用 Pandas dataframe 來計算每列的每個最小/最大行值。 例如: 調用 df.max() 產生 作為參考,我正在嘗試轉換以下代碼: 我正在將我的功能轉換為 Vaex,我需要像上面一樣打印出 dataframe 中每一列的最大行值。我嘗試了 df.max(column_ ...

2022-08-27 14:38:51   1   30    python / vaex  
HDF5 格式對 csv 文件做了什么?

[英]What did the HDF5 format do to the csv file?

我有一個 33GB 的 csv 文件,但在轉換為 HDF5 格式后,文件大小急劇減少到 1.4GB 左右。 我使用 vaex 庫讀取我的數據集,然后將此 vaex dataframe 轉換為 pandas dataframe。 vaex dataframe 到 pandas dataframe ...

在 vaex.from_csv() 中指定 output 目錄

[英]Specifying output directory in vaex.from_csv()

我在 Kaggle 筆記本中使用 Python 的 Vaex 庫,使用vaex.from_csv()方法將 a.csv 數據集轉換為 .hdf5。 我找不到為 hdf5 文件指定 output 目錄的方法。 默認情況下,該方法會在與輸入文件相同的目錄中創建文件,Kaggle 會阻止該文件,因為它指定 ...

Vaex 加入兩個數據集並過濾

[英]Vaex join two datasets and filter

我想對 vaex 數據框執行 2 項操作: 我有兩個 vaex 數據集: vaex_cpc 有 159,541,409 個觀察值和 vaex_id.info 有 117,081,595 個觀察值。 他們都共享一個名為“docdb_family_id”的列,我想基於此列合並兩者。 我試圖這樣做: 但我 ...

Vaex:該進程無法訪問該文件,因為它正在被另一個進程使用

[英]Vaex: The process cannot access the file because it is being used by another process

我正在開發一個使用 Vaex 從羽毛文件訪問數據的應用程序。 我們正在數據框中創建虛擬列,這些列存儲用於過濾數據集中數據行的布爾值。 每次制作新過濾器時,都會保存一個文件以緩存數據。 我們正在使用export_feather將過濾器保存到文件中,我們正在刪除虛擬列,然后我們正在加入緩存。 這是正在使 ...

2022-07-19 18:40:33   1   11    python / vaex  
Vaex Function 中的意外 Output

[英]Unexpected Output in Vaex Function

我正在嘗試制作以下 Vaex function: 雖然每次我運行它時,我都會得到類似這樣的非常混亂的數據: 雖然,當我手動填寫參數時: output 符合預期。 我嘗試將返回值轉換為 pandas dataframe,在其上調用 print(),將其更改為 on_expression=False ...

2022-06-28 23:32:11   1   17    python / vaex  
Vaex:有沒有辦法將單列拆分為多列

[英]Vaex: Is there way to split single column into multiple columns

我一直在嘗試找到一種方法將單列中的文本數據(分隔符是空格)拆分為多列。 我可以使用以下代碼通過 Pandas 完成,但我想對 Vaex 做同樣的事情。 我正在查看 Vaex API 文檔,但看不到 rsplit 等效方法。 https://vaex.readthedocs.io/en/latest ...

Vaex表達式到select所有行

[英]Vaex expression to select all rows

在Vaex中,什么表達式可以用作select所有行的過濾器? 我希望創建一個過濾器作為變量並將其傳遞給 function。 我的願望是如果 x <= 5 它將忽略過濾器(因此我試圖使用 True 作為值)。 這樣做會給出'bitwise_and' not supported for the i ...

Vaex 在數據幀之間復制列

[英]Vaex copy columns between dataframes

我有一個 dataframe,我對其進行了過濾,然后添加了一些虛擬列。 我希望將這些列添加回原始數據框。 這是我的代碼。 我收到錯誤ValueError: invalid literal for int() with base 10: '1_left' 。 為什么我會收到此錯誤,它甚至是正確的方法嗎 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM