通過檢查熊貓數據框來替換單詞

Question

我有一個如下的數據框。

ID  Word       Synonyms
------------------------
1   drove      drive
2   office     downtown
3   everyday   daily
4   day        daily
5   work       downtown

我正在閱讀一個句子，並想用上面定義的同義詞替換該句子中的單詞。 這是我的代碼：

import nltk
import pandas as pd
import string

sdf = pd.read_excel('C:\synonyms.xlsx')
sd = sdf.apply(lambda x: x.astype(str).str.lower())
words = 'i drove to office everyday in my car'

#######

def tokenize(text):
    text = ''.join([ch for ch in text if ch not in string.punctuation])
    tokens = nltk.word_tokenize(text)
    synonym = synonyms(tokens)
    return synonym

def synonyms(words):
    for word in words:
        if(sd[sd['Word'] == word].index.tolist()):
            idx = sd[sd['Word'] == word].index.tolist()
            word = sd.loc[idx]['Synonyms'].item()
        else:
            word
    return word

print(tokenize(words))

上面的代碼標記了輸入句子。 我想實現以下輸出：

在： i drove to office everyday in my car
外出： i drive to downtown daily in my car

但我得到的輸出是

出： car

如果我跳過synonyms功能，那么我的輸出就沒有問題並且會被拆分為單個單詞。 我試圖了解我在synonyms功能中做錯了什么。 另外，請告知是否有更好的解決方案來解決此問題。

Answer 1

我會利用 Pandas/NumPy 索引。 由於您的同義詞映射是多對一的，您可以使用Word列重新索引。

sd = sd.applymap(str.strip).applymap(str.lower).set_index('Word').Synonyms
print(sd)

Word
drove          drive
office      downtown
everyday       daily
day            daily
Name: Synonyms, dtype: object

然后，您可以輕松地將標記列表與其各自的同義詞對齊。

words = nltk.word_tokenize(u'i drove to office everyday in my car')
sentence = sd[words].reset_index()
print(sentence)

       Word  Synonyms
0         i       NaN
1     drove     drive
2        to       NaN
3    office  downtown
4  everyday     daily
5        in       NaN
6        my       NaN
7       car       NaN

現在，它仍然使用來自Synonyms的標記，回退到Word 。 這可以通過

sentence = sentence.Synonyms.fillna(sentence.Word)
print(sentence.values)

[u'i' 'drive' u'to' 'downtown' 'daily' u'in' u'my' u'car']

Answer 2

import re
import pandas as pd
sdf = pd.read_excel('C:\synonyms.xlsx')
rep = dict(zip(sdf.Word, sdf.Synonyms)) #convert into dictionary

words = "i drove to office everyday in my car"
rep = dict((re.escape(k), v) for k, v in rep.iteritems())
pattern = re.compile("|".join(rep.keys()))
rep = pattern.sub(lambda m: rep[re.escape(m.group(0))], words)

print rep

輸出

i drive to downtown daily in my car

禮貌： https : //stackoverflow.com/a/6117124/6626530

通過檢查熊貓數據框來替換單詞

問題描述

2 個解決方案

解決方案1
1 已采納 2017-01-24 19:20:44

解決方案2
0 2017-01-24 19:28:01

通過檢查熊貓數據框來替換單詞

問題描述

2 個解決方案

解決方案1 1 已采納 2017-01-24 19:20:44

解決方案2 0 2017-01-24 19:28:01

解決方案1
1 已采納 2017-01-24 19:20:44

解決方案2
0 2017-01-24 19:28:01