簡體   English   中英

計算數據框中單詞的頻率(文件excel)

[英]Calculate the frequency of words within dataframe (file excel)

我在一個文件 excel csv 中有一個包含這些數據的表:

"text"           "label"
Bla Bla Bla Bla     0
Bla Bla Bla Bla     0 
Bla Bla Bla Bla     1 
Bla Bla Bla Bla     0
Bla Bla Bla Bla     1 

我想獲得第 1 類和第 0 類中單詞的頻率。我該怎么做? 我使用以下代碼根據標簽拆分數據:

s=1
df1 = df[df['label'] >= s]
s2=0
df2 = df[df['label'] >= s]

所以,基本上我不明白你的代碼。 **但我假設是:**
你有一個數據集,分成兩個字符串數組。 並且想知道他們每個人在這里出現了多少次,或者知道他們在所有單詞中的百分比。
我對嗎?
如果是,這是我的方法/偽代碼。
首先,我只為這兩個數組中的一個寫這個。 第二個也一樣。
  • 創建下一個 2xN 數組(進一步命名: AM
  • 使 for 循環遍歷您的數組
  • 制作一個 if 語句,檢查您當前使用的單詞是否在 AM 上(使用 for 循環遍歷 AM 並比較字符串)。 如果它已經在 AM 上,則將 1 添加到 AM[place of word][1],如果沒有,則將此單詞添加到 AM[end][0]
    就這樣吧。 其簡單的“地圖”類型的方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM