[英]Dropping multiple columns from dataframe
我有以下代碼片段
{數據集: https://www.internationalgenome.org/data-portal/sample }
genome_data = pd.read_csv('../genome')
genome_data_columns = genome_data.columns
genPredict = genome_data[genome_data_columns[genome_data_columns != 'Geuvadis']]
這會刪除 Geuvadis 列,有沒有辦法可以包含多個列?
你可以不讀它們嗎?
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
read_csv 中的“usecols”選項允許您指定要包含在 DataFrame 中的數據列。
Venkatesh-PrasadRanganath 是如何刪除多列的正確答案。
但是,如果您想避免將數據讀入您不會使用的 memory 中,則基因組數據 = pd.read_csv('../genome', usecols=["only", "required", "columns"] 是語法使用。
您可以使用DataFrame.drop像genome_data.drop(['Geuvadis', 'C2', ...], axis=1)
。
我認為@Venkatesh-PrasadRanganath 的答案更好,但是對您的嘗試采取類似的方法,這就是我的做法。:
columns.to_list()
標識所有列list(set() - set())
減去要從完整列表中排除的列Select 其余列。
genome_data = pd.read_csv('../genome') all_genome_data_columns = genome_data.columns.to_list() excluded_genome_data_columns = ['a', 'b', 'c'] #Type in the columns that you want to exclude here. genome_data_columns = list(set(all_genome_data_columns) - set(excluded_genome_data_columns)) genPredict = genome_data[genome_data_columns]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.