字典到pandas DataFrame的列表列表

Question

我正在嘗試擬合以下數據：

[['Manufacturer: Hyundai',
  'Model: Tucson',
  'Mileage: 258000 km',
  'Registered: 07/2019'],
 ['Manufacturer: Mazda',
  'Model: 6',
  'Year: 2014',
  'Registered: 07/2019']]

到熊貓DataFrame。

並非所有標簽都出現在每個記錄中，例如，某些記錄具有“里程”，而有些則沒有。 我一共有26個功能，而幾乎所有功能都很少。

我想構造將在列中包含要素的pandas DataFrame，如果要素不存在，則內容應為“ NaN”。

我有

colnames=['Manufacturer', 'Model', 'Mileage', 'Registered', 'Year'...(all 26 features here)] 
df = pd.read_csv("./data/output.csv", sep=",", names=colnames, header=None)

很少有先決條件列能提供預期的輸出，但是在涉及可選功能時，缺少數據會導致之后的功能在錯誤的列下出現。 僅當所有功能均存在時，記錄才能正確映射。

我忘了提及某些缺少價值的功能，這些功能也沒有“：”但出現在列表中。 因此，在這2種情況下：

'里程'，（缺少值，但也缺少'：'）
從唱片總譜中丟失了“里程”

兩種情況的分配均應為“ NaN”。

Answer 1

使用嵌套列表DataFrame字典列表，如果缺少相同的鍵，則傳遞給DataFrame構造函數NaN ：

L = [['Manufacturer: Hyundai',
  'Model: Tucson',
  'Mileage: 258000 km',
  'Registered: 07/2019'],
 ['Manufacturer: Mazda',
  'Model: 6',
  'Year: 2014',
  'Registered: 07/2019']]

df = pd.DataFrame([dict(y.split(':') for y in x) for x in L])
print (df)
  Manufacturer     Mileage    Model Registered   Year
0      Hyundai   258000 km   Tucson    07/2019    NaN
1        Mazda         NaN        6    07/2019   2014

編輯：您可以使用.split(maxsplit=1)來按第一個空格進行分割：

L = [['Manufacturer Hyundai',
  'Model Tucson',
  'Mileage 258000 km',
  'Registered 07/2019'],
 ['Manufacturer Mazda',
  'Model 6',
  'Year 2014',
  'Registered 07/2019']]


df = pd.DataFrame([dict(y.split(maxsplit=1) for y in x) for x in L])
print (df)

  Manufacturer    Mileage   Model Registered  Year
0      Hyundai  258000 km  Tucson    07/2019   NaN
1        Mazda        NaN       6    07/2019  2014

編輯：

L = [['Manufacturer  Hyundai',
  'Model  Tucson',
  'Mileage  258000 km',
  'Registered  07/2019'],
 ['Manufacturer  Mazda',
  'Model  6',
  'Year  2014',
  'Registered  07/2019',
  'Additional equipment aaa']]

words2 = ['Additional equipment']

L1 = []
for x in L:
    di = {}
    for y in x:
        for word in words2:
            if set(word.split(maxsplit=2)[:2]) < set(y.split()):
                i, j, k = y.split(maxsplit=2)
                di['_'.join([i, j])] = k
            else:
                i, j = y.split(maxsplit=1)
                di[i] = j
    L1.append(di)

df = pd.DataFrame(L1)
print (df)
  Additional_equipment Manufacturer    Mileage   Model Registered  Year
0                  NaN      Hyundai  258000 km  Tucson    07/2019   NaN
1                  aaa        Mazda        NaN       6    07/2019  2014

字典到pandas DataFrame的列表列表

問題描述

1 個解決方案

解決方案1
4 已采納 2018-11-30 10:22:56

字典到pandas DataFrame的列表列表

問題描述

1 個解決方案

解決方案1 4 已采納 2018-11-30 10:22:56

解決方案1
4 已采納 2018-11-30 10:22:56