對列進行標記后，獲取特定單詞前后的 2 個單詞

Question

我剛剛使用 nltk.word_tokenize 標記了 dataframe 中的一列。 此列現在看起來像

df.tokenized
> 0     [apple, hi, dog, boy, why...]
> 1     [table, hey, girl, cat, dog, 2, 3...

對於每一行，我需要在“dog”這個詞之前得到 2 個詞，在“dog”這個詞之后得到 2 個詞。 我想把它放在同一個 dataframe 的另一列中。 我期望的 output 類似於：

df.tokenized_part2
> 0     [apple, hi, dog, boy, why]
> 1     [girl, cat, dog, 2, 3]

所以我需要創建這個列tokenized_part2。

如果您需要此信息：tokenized - object

有人知道該怎么做嗎？

Answer 1

您可以使用apply()在列中的每個單元格上運行 function 並且此 function 可能會得到 position of dog在列表中並返回[pos-2:pos+3]

import pandas as pd

df = pd.DataFrame({
"tokenized": [
    ['apple', 'hi', 'dog', 'boy', 'why', 'other'],
    ['table', 'hey', 'girl', 'cat', 'dog', '2', '3'],
    ['A', 'B', 'C'],
]
})

def process(words):
    #print(words)
    if 'dog' in words:
        pos = words.index('dog')
        return words[pos-2:pos+3]
    else:
        #return words
        return []

df["tokenized_2"] = df["tokenized"].apply(process)

print(df)

結果：

                            tokenized                 tokenized_2
0   [apple, hi, dog, boy, why, other]  [apple, hi, dog, boy, why]
1  [table, hey, girl, cat, dog, 2, 3]      [girl, cat, dog, 2, 3]
2                           [A, B, C]                          []

編輯：

為了使其更通用，它可以將dog （或其他詞）作為參數，然后您將使用lambda （或partial ）運行它

import pandas as pd

df = pd.DataFrame({
"tokenized": [
    ['apple', 'hi', 'dog', 'boy', 'why', 'other'],
    ['table', 'hey', 'girl', 'cat', 'dog', '2', '3'],
    ['A', 'B', 'C'],
]
})

def process(words, search):
    #print(words)
    if search in words:
        pos = words.index(search)
        return words[pos-2:pos+3]
    else:
        #return words
        return []

df["tokenized_dog"] = df["tokenized"].apply(lambda words:process(words, 'dog'))
df["tokenized_cat"] = df["tokenized"].apply(lambda words:process(words, 'cat'))

print(df[["tokenized_dog", "tokenized_cat"]])

結果：

                tokenized_dog             tokenized_cat
0  [apple, hi, dog, boy, why]                        []
1      [girl, cat, dog, 2, 3]  [hey, girl, cat, dog, 2]
2                          []                        []

Answer 2

一種方法是使用 apply 與 lambda 之類的

lambda x: [i for ix,i in enumerate(x) if ix in range([idx for idx,it in x if it=='dog'][0]-2,[idx for idx,it in x if it=='dog'][0]+2)]

但它的計算成本很高，容易出錯，而且可能是不必要的復雜。

對列進行標記后，獲取特定單詞前后的 2 個單詞

問題描述

2 個解決方案

解決方案1
1 已采納 2021-05-18 23:08:57

解決方案2
-2 2021-05-18 22:30:22

對列進行標記后，獲取特定單詞前后的 2 個單詞

問題描述

2 個解決方案

解決方案1 1 已采納 2021-05-18 23:08:57

解決方案2 -2 2021-05-18 22:30:22

解決方案1
1 已采納 2021-05-18 23:08:57

解決方案2
-2 2021-05-18 22:30:22