to_csv 來自帶有文件名的循環的多個數據幀

Question

我正在嘗試從目錄中的原始.csv文件創建多個好/壞文件。

我對 Python 相當陌生，但將以下內容拼湊在一起，但它沒有保存多個文件，只是 x1“好”和 x1“壞”文件。 在目錄中我有testfile1和testfile2 。 output 應該是testfile1good testfile1bad testfile2good testfile2bad 。

任何幫助將不勝感激。

謝謝

import pandas as pd
from string import ascii_letters
import glob
from pathlib import Path


files = glob.glob('C:\\Users\\nickn\\OneDrive\\Documents\\Well\\*.csv')


for f in files:
    filename = []
    filename = Path(f)

#Can not be null fields    
df = pd.read_csv(f)
emptyvals = []
emptyvals = df['First Name'].isnull() | df['Last Name'].isnull()

#Bank Account Number is not 8 digits long
accountnolen = []
ac = []
accountnolen = df['AccNumLen'] = df['Bank Account Number'].astype(str).map(len)
ac =  df[(df['AccNumLen'] != 8)]
acd= ac.drop(['AccNumLen'],axis=1)

#Create Exclusions
allexclusions = []
allexclusions = df[emptyvals].append(acd)
allexclusions.to_csv(filename.stem+"bad.csv",header =True,index=False)

#GoodList
#for f in files:
#    filename = []
#    filename = Path(f)
origlist = df
df = pd.merge(origlist, allexclusions, how='outer', indicator=True)
cl =  df[(df['_merge'] == 'left_only')]
cld = cl.drop(['_merge','AccNumLen'],axis=1)
cld['Well ID'] = cld['Well ID'].str.rstrip(ascii_letters)

cld.to_csv(filename.stem+'good.csv',header =True,index=False)

Answer 1

我認為您確實循環但保留它並在第 14 行執行 rest - 您已設置文件名並保存一次數據。

你想要的是做循環和 rest 應該發生在每次迭代，所以代碼應該是這樣的：

import pandas as pd
from string import ascii_letters
import glob
from pathlib import Path


files = glob.glob('C:\\Users\\nickn\\OneDrive\\Documents\\Well\\*.csv')


for f in files:
    filename = []
    filename = Path(f)

    #EDIT: we stay in loop and process each file one by one with following lines:

    #Can not be null fields    
    df = pd.read_csv(f)
    emptyvals = []
    emptyvals = df['First Name'].isnull() | df['Last Name'].isnull()
    
    #Bank Account Number is not 8 digits long
    accountnolen = []
    ac = []
    accountnolen = df['AccNumLen'] = df['Bank Account Number'].astype(str).map(len)
    ac =  df[(df['AccNumLen'] != 8)]
    acd= ac.drop(['AccNumLen'],axis=1)
    
    #Create Exclusions
    allexclusions = []
    allexclusions = df[emptyvals].append(acd)
    allexclusions.to_csv(filename.stem+"bad.csv",header =True,index=False)
    
    #GoodList
    #for f in files:
    #    filename = []
    #    filename = Path(f)
    origlist = df
    df = pd.merge(origlist, allexclusions, how='outer', indicator=True)
    cl =  df[(df['_merge'] == 'left_only')]
    cld = cl.drop(['_merge','AccNumLen'],axis=1)
    cld['Well ID'] = cld['Well ID'].str.rstrip(ascii_letters)
    
    cld.to_csv(filename.stem+'good.csv',header =True,index=False)

換句話說 - 您遍歷目錄中找到的文件名，然后您獲取最后一個“文件名”並一次性處理它。 通過在 rest 代碼中添加 4 個空格，我們對 python 解釋器說這部分代碼是循環的一部分，應該為每個文件執行。 希望有意義

to_csv 來自帶有文件名的循環的多個數據幀

問題描述

1 個解決方案

解決方案1
0 已采納 2020-07-31 13:36:36

to_csv 來自帶有文件名的循環的多個數據幀

問題描述

1 個解決方案

解決方案1 0 已采納 2020-07-31 13:36:36

解決方案1
0 已采納 2020-07-31 13:36:36