簡體   English   中英

通過創建字典來替換單詞

[英]Replacing words by creating a dictionary

我有一個要在數據集中替換的單詞列表:

my_dict = {
  "positivi": "positivo",
  "positiva": "positivo",
  "lavori": "lavoro",
  "nuova":"nuovo",
  "nuovi": "nuovo",
  "nuove": "nuovo",
    
}

為了做到這一點,我嘗試如下:

import nltk

a = df['Title'].str.lower().str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)

df_1 = pd.DataFrame(word_dist.most_common(1000),
                    columns=['Word', 'Frequency'])

df_1 = df_1.Word.replace(my_dict,inplace=True) # the problem is here. This returns an empty df_1

df_1 = df_1[df_1['Word'].str.len()>3]

list_of_words=["dopo","entro","fare","fanno","loro","indietro","insieme","avranno","7115","allo","anche","cosa","dalle","dall","dagli","dentro","secondo","sempre",'siamo','sarà','sarebbe','troppi','tutti','verso','sotto','stesso','sulle','2018','ogni','oggi','nell','nelle','niente','queste','meno','alle','sulla','contro','come','per', 'della','sono','dell','solo','quali','quasi','ecco','ancora']

df_1 = df_1.groupby(['Word'], as_index=False).sum()
df_1 = df_1[~ df_1.Word.str.contains('|'.join(list_of_words), case=False)]

df_1.sort_values(by=['Frequency'], ascending=False).to_csv("path/my_dict.csv")

但是,它不會替換文本中的任何內容。 例如:

Title 

Una notizia positiva dopo tanto tempo 
Quali lavori svolgi?

我應該期望在 csv 中創建一個帶有替換詞和新頻率的新詞典。 但實際上我打印了相同的舊列表。

你能告訴我我的代碼有什么問題嗎?

一些數據樣本

0      Torna la domenica al museo: l'iniziativa positiva...
1      Torino, lettera di un boss ai giovani: “Non f...
2      Gli studenti italiani non capiscono i lavori...
3      Offerte nuovi lavori: le principali posizion...
                             ...        

           

我可以猜到問題是就地=真。 這將就地更新日期框架並且不返回任何內容。

我不知道是否還有其他問題,沒有 df 的樣本數據我無法測試。

import nltk
nltk.download('punkt')

import pandas as pd

data = (['Torna la domenica al museo: l\'iniziativa positiva',
'Torino, lettera di un boss ai giovani: “Non f...',
'Gli studenti italiani non capiscono i lavori...',
'Offerte nuovi lavori: le principali posizion...'])

my_dict = {
  "positivi": "positivo",
  "positiva": "positivo",
  "lavori": "lavoro",
  "nuova":"nuovo",
  "nuovi": "nuovo",
  "nuove": "nuovo",
    
}

df = pd.DataFrame(data, columns=['Title'])        

a = df['Title'].str.lower().str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)

df_1 = pd.DataFrame(word_dist.most_common(1000),
                    columns=['Word', 'Frequency'])

df_1.Word = df_1.Word.replace(my_dict)

df_1 = df_1[df_1['Word'].str.len()>3]

list_of_words=["dopo","entro","fare","fanno","loro","indietro","insieme","avranno","7115","allo","anche","cosa","dalle","dall","dagli","dentro","secondo","sempre",'siamo','sarà','sarebbe','troppi','tutti','verso','sotto','stesso','sulle','2018','ogni','oggi','nell','nelle','niente','queste','meno','alle','sulla','contro','come','per', 'della','sono','dell','solo','quali','quasi','ecco','ancora']

df_1 = df_1.groupby(['Word'], as_index=False).sum()
df_1 = df_1[~ df_1.Word.str.contains('|'.join(list_of_words), case=False)]

df_1.sort_values(by=['Frequency'], ascending=False).to_csv("64671179.csv")

csv 文件包含:

,Word,Frequency
6,lavoro,2
0,boss,1
9,nuovo,1
15,torino,1
14,studenti,1
13,principali,1
12,posizion,1
11,positivo,1
10,offerte,1
8,museo,1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM