簡體   English   中英

在Pandas DataFrame列中存儲列表

[英]Storing list in a pandas DataFrame column

我正在嘗試使用NLTK和Pandas進行一些文本處理。

我有帶有“文本”列的DataFrame。 我想添加列“ text_tokenized”,將其存儲為嵌套列表。

我用於標記文本的代碼是:

def sent_word_tokenize(text):
    text = unicode(text, errors='replace')
    sents = sent_tokenize(text)
    tokens = map(word_tokenize, sents)

    return tokens

目前,我正在嘗試按以下方式應用此功能:

df['text_tokenized'] = df.apply(lambda row: sent_word_tokenize(row.text), axis=1)

這給了我錯誤:

ValueError: Shape of passed values is (100, 3), indices imply (100, 21)

不知道如何解決它,這里有什么問題。

通過使用不同的軸解決了我自己的問題:

代替:

df['text_tokenized'] = df.apply(lambda row: sent_word_tokenize(row.text), axis=1)

我用了:

df['text_tokenized'] = df.text.apply(lambda text: sent_word_tokenize(text))

盡管我不確定為什么它會起作用,但是如果有人可以向我解釋一下,我非常感謝。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM