計算數據框中單詞的頻率（文件excel）

Question

我在一個文件 excel csv 中有一個包含這些數據的表：

"text"           "label"
Bla Bla Bla Bla     0
Bla Bla Bla Bla     0 
Bla Bla Bla Bla     1 
Bla Bla Bla Bla     0
Bla Bla Bla Bla     1

我想獲得第 1 類和第 0 類中單詞的頻率。我該怎么做？ 我使用以下代碼根據標簽拆分數據：

s=1
df1 = df[df['label'] >= s]
s2=0
df2 = df[df['label'] >= s]

Answer 1

所以，基本上我不明白你的代碼。 **但我假設是：**
你有一個數據集，分成兩個字符串數組。 並且想知道他們每個人在這里出現了多少次，或者知道他們在所有單詞中的百分比。
我對嗎？
如果是，這是我的方法/偽代碼。
首先，我只為這兩個數組中的一個寫這個。 第二個也一樣。

創建下一個 2xN 數組（進一步命名： AM ）
使 for 循環遍歷您的數組
制作一個 if 語句，檢查您當前使用的單詞是否在 AM 上（使用 for 循環遍歷 AM 並比較字符串）。 如果它已經在 AM 上，則將 1 添加到 AM[place of word][1]，如果沒有，則將此單詞添加到 AM[end][0]
就這樣吧。 其簡單的“地圖”類型的方法。

計算數據框中單詞的頻率（文件excel）

問題描述

1 個解決方案

解決方案1
0 2022-07-07 11:19:17

計算數據框中單詞的頻率（文件excel）

問題描述

1 個解決方案

解決方案1 0 2022-07-07 11:19:17

解決方案1
0 2022-07-07 11:19:17