从Pandas DataFrame列中删除字符串

Question

我有一个熊猫数据框，如下所示。

DF1 =

sid                 path
 1    '["rome","is","in","province","lazio"]'   
 1    "['rome', 'is', 'in', 'province', 'naples']"
 1     ['N']
 1    "['rome', 'is', 'in', 'province', 'in', 'campania']"
 ....

我想删除列path所有不必要的字符，因此结果应如下所示：

DF2 =

    sid                  path
     1         rome is in province lazio
     1         rome is in province naples
     1                    N
     1         rome is in province in campania
 ....

我尝试替换所有不必要的字符，例如：

 DF1["path"].replace("[","").replace("]","").replace('"',"").replace(","," ").replace("'","")

但这没有用。 我想这是由于条目["N"]

我怎样才能做到这一点？ 任何帮助表示赞赏！

Answer 1

您可以使用ast.literal_eval安全地读取以字符串形式输出的列表。 解决真实列表的一种方法是捕获ValueError 。

请注意，如果可能的话，您应该尝试在这些问题到达您的数据框之前在上游对其进行排序。

from ast import literal_eval

df = pd.DataFrame({'sid': [1, 1, 1, 1],
                   'path': ['["rome","is","in","province","lazio"]',
                            "['rome', 'is', 'in', 'province', 'naples']",
                            ['N'],
                            "['rome', 'is', 'in', 'province', 'in', 'campania']"]})

def converter(x):
    try:
        return ' '.join(literal_eval(x))
    except ValueError:
        return ' '.join(x)

df['path'] = df['path'].apply(converter)

print(df)

                              path  sid
0        rome is in province lazio    1
1       rome is in province naples    1
2                                N    1
3  rome is in province in campania    1

Answer 2

使用ast.literal_eval和str.join

演示：

import pandas as pd
import ast
df = pd.DataFrame({"path": ['["rome","is","in","province","lazio"]', "['rome', 'is', 'in', 'province', 'naples']", ['N']]})
df['path'] = df['path'].astype(str).apply(ast.literal_eval).apply(lambda x: " ".join(x))
print(df)

输出：

                         path
0   rome is in province lazio
1  rome is in province naples
2                           N

从Pandas DataFrame列中删除字符串

问题描述

2 个解决方案

解决方案1
1 2018-06-18 15:04:06

解决方案2
1 已采纳 2018-06-18 15:06:30

从Pandas DataFrame列中删除字符串

问题描述

2 个解决方案

解决方案1 1 2018-06-18 15:04:06

解决方案2 1 已采纳 2018-06-18 15:06:30

解决方案1
1 2018-06-18 15:04:06

解决方案2
1 已采纳 2018-06-18 15:06:30