如何從熊貓數據框中的文本字符串中提取所有形容詞？

Question

我正在將 CSV 加載到 Pandas 數據框中。 數據框中的一列是“評論”，其中包含文本字符串。 我需要在數據框的所有行中識別此列中的所有形容詞，然后創建一個新列“形容詞”，其中包含該評論中所有形容詞的列表。

我已經嘗試使用 TextBlobs 並且能夠使用發布的代碼為每個案例標記詞性。

import pandas as pd
from textblob import TextBlob

df=pd.read_csv('./data.csv')

def pos_tag(text):
    try:
        return TextBlob(text).tags
    except:
        return None

df['pos'] = df['reviews'].apply(pos_tag)

df.to_csv('dataadj.csv', index=False)

Answer 1

您快到了。 TextBlob(text).tags返回 (word, tag) 的元組列表。 您只需要根據標簽進行過濾（在您的情況下為JJ ）。

你可以這樣做：

def get_adjectives(text):
    blob = TextBlob(text)
    return [ word for (word,tag) in blob.tags if tag == "JJ"]

df['adjectives'] = df['reviews'].apply(get_adjectives)

編輯：為了也捕捉比較級/最高級形式（JJR/JJS）的tag.startswith("JJ")用tag.startswith("JJ")替換tag == "JJ"應該可以工作。

如何從熊貓數據框中的文本字符串中提取所有形容詞？

問題描述

1 個解決方案

解決方案1
4 已采納 2019-07-11 03:23:43

如何從熊貓數據框中的文本字符串中提取所有形容詞？

問題描述

1 個解決方案

解決方案1 4 已采納 2019-07-11 03:23:43

解決方案1
4 已采納 2019-07-11 03:23:43