簡體   English   中英

如何從熊貓數據框中的文本字符串中提取所有形容詞?

[英]How to extract all adjectives from a strings of text in a pandas dataframe?

我正在將 CSV 加載到 Pandas 數據框中。 數據框中的一列是“評論”,其中包含文本字符串。 我需要在數據框的所有行中識別此列中的所有形容詞,然后創建一個新列“形容詞”,其中包含該評論中所有形容詞的列表。

我已經嘗試使用 TextBlobs 並且能夠使用發布的代碼為每個案例標記詞性。

import pandas as pd
from textblob import TextBlob

df=pd.read_csv('./data.csv')

def pos_tag(text):
    try:
        return TextBlob(text).tags
    except:
        return None

df['pos'] = df['reviews'].apply(pos_tag)

df.to_csv('dataadj.csv', index=False)

您快到了。 TextBlob(text).tags返回 (word, tag) 的元組列表。 您只需要根據標簽進行過濾(在您的情況下為JJ )。

你可以這樣做:

def get_adjectives(text):
    blob = TextBlob(text)
    return [ word for (word,tag) in blob.tags if tag == "JJ"]

df['adjectives'] = df['reviews'].apply(get_adjectives)

編輯:為了也捕捉比較級/最高級形式(JJR/JJS)的tag.startswith("JJ")tag.startswith("JJ")替換tag == "JJ"應該可以工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM