標簽[data-munging] - 堆棧內存溢出

[英]Pandas conditional join and calculation

我有兩個 Pandas 數據框，df_stock_prices 和 df_sentiment_mean。我想做以下事情：將這兩個數據框左連接/合並為一個 dataframe，由 Date 和 ticker 連接。在 df_stock_prices 中，ticker 是列名稱，例如 AAPL.O ...

使用 apply 在 N 個數據集列表中的每個數據集的頂部添加一個（固定的）新行

[英]Adding a (fixed) new row to the top of each dataset in a list of N datasets using apply

我有 N 個數據集，它們被加載到 RStudio 並存儲在列表 object“數據集”中。問題是我想成為他們每個人的第一行或他們每個人的標題，無論哪種方式都在他們的第三行。我發布的這個問題的初始版本只有下面的段落描述了 N 個數據集的每一個是什么樣子，但我意識到這還不夠簡單，所以現在我在下面添加 ...

如何將等效的標准子設置操作應用於數據幀列表而不是單個 dataframe

[英]How to apply the equivalent of standard sub setting operations but to a list of dataframes instead of to a single dataframe

我在一個文件夾中有一組 40 個不同的數據集，這些數據集已加載到 RStudio 中的 WorkSpace 中，其中包含：這個 object 數據集是一個包含 40 個數據幀的列表。當 object 是單個 dataframe 時，我想運行與以下代碼行相同的代碼：從那里，我同樣想找到方法來找 ...

Pandas 在所有數據幀中添加另一列的計數列

[英]Pandas add column of count of another column across all the datafram

我有一個 dataframe：我想添加另一列，這些列將包含所有 dataframe 中“E”列中的值的計數（在 E 列中）所以這里的 output 將是：如何有效地完成它？ ...

將 pandas 'timed' dataframe 重組為單行以允許連接

[英]Reorganize pandas 'timed' dataframe into single row to allow for concat

我有一個參與者的數據數據框（存儲在 excel 個文件中），每個參與者看起來像開始一氧化碳直徑系統 0 15:05 7.33388 64.1671 114.219 1個 15:06 8.0669 65.0849 116.498 2個 15:07 7.07017 67.224 ...

Pandas pivot 帶有列前綴的表

[英]Pandas pivot table with prefix to columns

我有一個 dataframe：我想創建：如何做呢？ ...

Pandas groupby后其他列出現次數直方圖

[英]Pandas histogram of number of occurences of other columns after groupby

我有一個 dataframe：我需要生成一個 plot 的“每 <Batch_ID，分鍾> 的不同代碼數量”的直方圖。請注意，“代碼”可能多次出現，但應在唯一之后采用。所以在這種情況下，一些條目將是：如何做呢？ ...

pandas 如何在 groupby 中獲取排序值 object

[英]pandas how to get sorted value in groupby object

我有一個 dataframe 我想按組內最小值的 Val 排序，然后 foreach 行獲取 groupby Col 的索引所以新的 df 將 df 最好的方法是什么？ ...

通過不同的標准合並不同維度的數據幀

[英]Joining dataframes of different dimensions with varying merge by criterion

晚上好，我正在嘗試合並幾個數據集，而我在 R 中的常規工具今晚讓我失望了。考慮下面的 df1 和 df2。在這兩種情況下，a 列和 b 列都應該充當分組變量。例如，在df1中，當a = a且b = 1時，則c = x。鑒於我正在處理的數據結構，a 和 b 的實際順序並不重要，如果 a = 1 ...

將順序二維數組轉換為時間窗數據集

[英]Transform sequential 2d array to time-windowed dataset

我有一個二維 dataframe：我希望它是帶有 <num_windows, window_size, num_features> 的 3d 數據因此，如果 window 大小為 5，則 3d 數據的形狀將為 <2,5,3> 並且將是：最好的方法是什么？ ...

pandas 從單獨的日期列表中的相應日期獲取增量

[英]pandas get delta from corresponding date in a seperate list of dates

我有一個 dataframe 和l = [datetime.datetime(2019,05,02), datetime.datetime(2019,05,10), datetime.datetime(2019,05,22) ] 我想添加一個包含以下內容的列：對於每一行，從 l 中找到它之前的最后一 ...

Pandas 數據框如何根據 timedelta 合並 2 個 dfs？

[英]Pandas dataframe how to merge 2 dfs based on timedelta?

我有兩個數據框：我想通過比較recorded_at和DateTime來合並它們，然后在 4 秒內獲取所有行。所以我會得到我該怎么做？謝謝！ ...

熊貓數據框如何根據日期向量中的排名添加列

[英]Pandas dataframe how to add a columns based on rank in a dates vector

我有一個日期向量和一個帶有日期列的數據框：我想添加一個列，它是日期向量中的排名，並從同一日期刪除行（無論小時/分鍾）。所以我會有：最好的方法是什么？ ...

基於來自不同數據框的其他列創建新列

[英]Create new column based on other columns from a different dataframe

我有2個數據框： df1 df2 我想在 df2 中創建一個名為Total的新列，該列在 df1 中的 10:00 乘以該項目的因子 - 僅當它們在 A 類中時才應該這樣做。這就是最終 df 的樣子 df2 這是我嘗試過的： ...

Pandas dataframe 刪除基於另一列值的重復項

[英]Pandas dataframe drop duplicates based in another column value

我有一個 dataframe 重復：當有重復時，總是在我想用鍵(timestamp,id,ch) drop_duplicates但保留is_eval為 True 的行時。意思是，如果有一行is_eval==True則保留它。否則，沒關系。所以這里的output應該是：我該怎么做？ ...

基於來自另一個數據框的其他列創建新列

[英]Creating a new column based on other columns from another dataframe

我有2個數據框： df1 df2 我想在 df2 中創建一個名為Total的新列，它是 df1 中每個用戶的所有列的列表，乘以該用戶的因子 - 只有當它們在 A 類中時才應該這樣做。這就是最終 df 的樣子 df2 這是我嘗試過的： ...

Pandas 將每個單元格都是字符串列表的列轉換為整數列表

[英]Pandas convert column where every cell is list of strings to list of integers

我有一個數據框，其中的列具有數字列表作為字符串：將其轉換為整數列表的最佳方法是什么？謝謝 ...

pandas dataframe 如何從基於其他列的列表單元格中刪除值

[英]pandas dataframe how to remove values from cell that is a list based on other column

我有一個 dataframe，其中 2 列代表一個列表：我希望對於每一行，從 vals 列中排除 locs 中的所有位置。所以我會得到：最好的方法是什么？謝謝！ ...

pandas dataframe 添加特定列值隨機排列的行

[英]pandas dataframe add rows that are shuffle of values of specific columns

我有 dataframe：我想在 b_150、b_250、b_350 和 h_200、h_300、h_400 的值之間添加可能隨機播放的行例如我將添加 2 個組合（1 個用於 l1，一個用於 l2）以獲得：最有效的方法是什么？ ...

pandas中按日期聚合多列總和

[英]Aggregate sum of multiple columns by date in pandas

我的 df 看起來像這樣日期上校列1 01/01/2022 一種 500 01/01/2022 乙 100 01/01/2022 C 400 02/01/2022 一種 400 02/01/2022 乙 150 02/01/2022 C 450 我想要的 output 看起來像 ...