列出熊貓數據框列中的所有單詞

Question

我有以下數據框：

df = pd.DataFrame([{'c1':'Hello world'}, {'c1':'Hello all the world'}])

我想列出“c1”列中包含的所有單詞。 結果列表應如下所示：

list=['Hello','world','Hello','all','the','world']

我以為我可以遍歷數據框中的行，並為每一行循環遍歷“c1”中的單詞並將單詞輸出到列表中，但我無法使其工作。

Answer 1

你可以這樣做：

' '.join([i for i in df['c1']]).split()

Answer 2

嘗試：

df.stack().str.split("[^\w+]").explode().tolist()

輸出：

['Hello', 'world', 'Hello', 'all', 'the', 'world']

Answer 3

首先我們創建樣本df和空列表a_list

df = pd.DataFrame([{'c1':'Hello world'}, 
                   {'c1':'Hello all the world'}]) 
a_list = []

下一步：這個for 循環遍歷列c1中的每一行，處理每一行中的值，然后通過.extend函數將輸出添加到a_list 。

從左到右，從機器人到上發生了什么：
for : 開始循環。
value : 是一個臨時變量，用於在 for 循環迭代的每個c1行中存儲值。

df.c1 : 從df選擇c1列
.str.split() : 訪問字符串值並在有空格的地方拆分( ' ' )

a_list.extend(value) ：添加到a_list每個，現在是單詞列表，每次迭代的value 。

for value in df.c1.str.split(' '):
    a_list.extend(value)

打印列表

print(a_list) 
['Hello', 'world', 'Hello', 'all', 'the', 'world']