从长度不均匀的字典创建一个熊猫数据框

Question

对于字典：

d = {
    "a": [1],
    "b": 2,
    "c": [[7, 8, 9], ["a", "b", "c"], [9, 10, 11]],
    "d": None,
}

我想实现这个数据框：

pd.DataFrame({"a": [[1], [1], [1]],
              "b": [2, 2, 2],
              "c": [[7, 8, 9], ["a", "b", "c"], [9, 10, 11]],
              "d": [None, None, None]})

     a  b            c     d
0  [1]  2    [7, 8, 9]  None
1  [1]  2    [a, b, c]  None
2  [1]  2  [9, 10, 11]  None

基本上，列应该自我复制，直到最长列的长度。

我知道在 R 中，如果我创建一个像NA这样的数据tidyr::fill来指示我想要复制的行并使用tidyr::fill ，python 中是否有类似的东西？

df = data.frame(
  a = c("a", NA, NA),
  b = c(1, 2, 3)
)
tidyr::fill(df, a)

  a b
1 a 1
2 a 2
3 a 3

Answer 1

以下是可能的解决方案示例：

d = {
    "a": [1],
    "b": 2,
    "c": [[7, 8, 9], ["a", "b", "c"], [9, 10, 11]],
    "d": None,
}

max_len = max(len(l) if isinstance(l, list) else 1 for l in d.values())

for key in d.keys():
  if isinstance(d[key], list):
    if len(d[key]) != max_len:
      d[key] = np.repeat(d[key], max_len).tolist()
  else:
    d[key] = np.repeat(np.array(d[key]), max_len).tolist()

结果：

{
 'a': [1, 1, 1],
 'b': [2, 2, 2],
 'c': [[7, 8, 9], ['a', 'b', 'c'], [9, 10, 11]],
 'd': [None, None, None]
}

但它显然只适用于特定情况，当所有列只有一个元素时。 为了解决这个任务，通常还应该指定应该如何处理不同长度的列：是否应该重复整个列并在最后一次迭代时对其进行修剪，或者应该只重复第一个/最后一个值，或者其他一些方法。

Answer 2

用datar很容易做到

>>> from datar.tibble import tibble
>>> from datar.base import NA, c
>>> from datar.tidyr import fill
>>> 
>>> d = {
...     "a": [[1]], # in order to get [1] as element
...     "b": 2,
...     "c": [[7, 8, 9], ["a", "b", "c"], [9, 10, 11]],
...     "d": [None],
... }
>>> 
>>> df = tibble(d)
>>> df
     a  b            c     d
0  [1]  2    [7, 8, 9]  None
1  [1]  2    [a, b, c]  None
2  [1]  2  [9, 10, 11]  None
>>> df = tibble(
...   a = c("a", NA, NA),
...   b = c(1, 2, 3)
... )
>>> 
>>> fill(df, "a")
   a  b
0  a  1
1  a  2
2  a  3

我是包的作者。 如果您有任何问题，请随时提交问题。

Answer 3

你的 R 代码几乎可以翻译成 python。 不清楚您是否能够将字典更改为与 R 示例类似的格式，但是如果可以：

d = {
    "a": [[1], None, None],
    "b": [2, None, None],
    "c": [[7, 8, 9], ["a", "b", "c"], [9, 10, 11]],
    "d": [None, None, None],
}
pd.DataFrame(d).ffill()

返回

     a    b            c     d                                                                                          
0  [1]  2.0    [7, 8, 9]  None                                                                                          
1  [1]  2.0    [a, b, c]  None                                                                                          
2  [1]  2.0  [9, 10, 11]  None

从长度不均匀的字典创建一个熊猫数据框

问题描述

3 个解决方案

解决方案1
1 已采纳 2020-09-23 09:11:40

解决方案2
1 2021-06-08 20:25:52

解决方案3
0 2021-06-08 20:37:20

从长度不均匀的字典创建一个熊猫数据框

问题描述

3 个解决方案

解决方案1 1 已采纳 2020-09-23 09:11:40

解决方案2 1 2021-06-08 20:25:52

解决方案3 0 2021-06-08 20:37:20

解决方案1
1 已采纳 2020-09-23 09:11:40

解决方案2
1 2021-06-08 20:25:52

解决方案3
0 2021-06-08 20:37:20