如何根據該文件中行中的日期將 CSV 文件在特定日期之間的值傳輸到另一個 CSV 文件？

Question

長問題：我有兩個 CSV 文件，一個名為 SF1，其中包含帶有 datekey 列的季度數據（一年僅 4 次），另一個名為 DAILY，每天提供數據。 這是財務數據，所以有股票行情。

我需要獲取 SF1 的季度數據並將其寫入 DAILY csv 文件，以便在我們獲得下一個季度數據之間的所有日子里。

例如， AAPL在 2010 年 1 月 1 日在 SF1 發布季度數據，其下一份收益報告將於 2010 年 3 月 4 日發布。 然后，我需要在 2010-01-01 到 2010-03-04 之間的日期為AAPL的 DAILY 文件中的每一行都具有與 SF1 文件中該日期的那一行相同的信息。

到目前為止，我已經制作了一個 python 字典，它遍歷 SF1 文件並將日期添加到一個列表中，該列表是字典中股票代碼鍵的值。 我考慮過可能擺脫以前的字符串，只是將字典中的字符串引用到 go 並搜索要寫入 DAILY 文件的數據。

從 SF1 文件傳輸到 DAILY 文件所需的一些列是：

['accoci', 'assets', 'assetsavg', 'assetsc', 'assetsnc', 'assetturnover', 'bvps', 'capex', 'cashneq', 'cashnequsd', 'cor', 'consolinc', 'currentratio', 'de', 'debt', 'debtc', 'debtnc', 'debtusd', 'deferredrev', 'depamor', 'deposits', 'divyield', 'dps', 'ebit']

到目前為止的代碼：

for ind, row in sf1.iterrows():
    sf1_date = row['datekey']
    sf1_ticker = row['ticker']
    company_date.setdefault(sf1_ticker, []).append(sf1_date)

解決這個問題的最佳方法是什么？

SF1 csv：

ticker,dimension,calendardate,datekey,reportperiod,lastupdated,accoci,assets,assetsavg,assetsc,assetsnc,assetturnover,bvps,capex,cashneq,cashnequsd,cor,consolinc,currentratio,de,debt,debtc,debtnc,debtusd,deferredrev,depamor,deposits,divyield,dps,ebit,ebitda,ebitdamargin,ebitdausd,ebitusd,ebt,eps,epsdil,epsusd,equity,equityavg,equityusd,ev,evebit,evebitda,fcf,fcfps,fxusd,gp,grossmargin,intangibles,intexp,invcap,invcapavg,inventory,investments,investmentsc,investmentsnc,liabilities,liabilitiesc,liabilitiesnc,marketcap,ncf,ncfbus,ncfcommon,ncfdebt,ncfdiv,ncff,ncfi,ncfinv,ncfo,ncfx,netinc,netinccmn,netinccmnusd,netincdis,netincnci,netmargin,opex,opinc,payables,payoutratio,pb,pe,pe1,ppnenet,prefdivis,price,ps,ps1,receivables,retearn,revenue,revenueusd,rnd,roa,roe,roic,ros,sbcomp,sgna,sharefactor,sharesbas,shareswa,shareswadil,sps,tangibles,taxassets,taxexp,taxliabilities,tbvps,workingcapital
A,ARQ,2020-09-14,2020-09-14,2020-09-14,2020-09-14,53000000,7107000000,,4982000000,2125000000,,10.219,-30000000,1368000000,1368000000,1160000000,131000000,2.41,0.584,665000000,111000000,554000000,665000000,281000000,96000000,0,0.0,0.0,202000000,298000000,0.133,298000000,202000000,202000000,0.3,0.3,0.3,4486000000,,4486000000,50960600000,,,354000000,0.806,1.0,1086000000,0.484,0,0,4337000000,,1567000000,42000000,42000000,0,2621000000,2067000000,554000000,51663600000,1368000000,-160000000,2068000000,111000000,0,1192000000,-208000000,-42000000,384000000,0,131000000,131000000,131000000,0,0,0.058,915000000,171000000,635000000,0.0,11.517,,,1408000000,0,114.3,,,1445000000,131000000,2246000000,2246000000,290000000,,,,,0,625000000,1.0,452000000,439000000,440000000,5.116,7107000000,0,71000000,113000000,16.189,2915000000

每日 csv：

ticker,date,lastupdated,ev,evebit,evebitda,marketcap,pb,pe,ps
A,2020-09-14,2020-09-14,31617.1,36.3,26.8,30652.1,6.2,44.4,5.9

代碼運行后理想的 csv （其中資產的所有數字）：

ticker,date,lastupdated,ev,evebit,evebitda,marketcap,pb,pe,ps,accoci,assets,assetsavg,assetsc,assetsnc,assetturnover,bvps,capex,cashneq,cashnequsd,cor,consolinc,currentratio,de,debt,debtc,debtnc,debtusd,deferredrev,depamor,deposits,divyield,dps,ebit,ebitda,ebitdamargin,ebitdausd,ebitusd,ebt,eps,epsdil,epsusd,equity,equityavg,equityusd,ev,evebit,evebitda,fcf,fcfps,fxusd,gp,grossmargin,intangibles,intexp,invcap,invcapavg,inventory,investments,investmentsc,investmentsnc,liabilities,liabilitiesc,liabilitiesnc,marketcap,ncf,ncfbus,ncfcommon,ncfdebt,ncfdiv,ncff,ncfi,ncfinv,ncfo,ncfx,netinc,netinccmn,netinccmnusd,netincdis,netincnci,netmargin,opex,opinc,payables,payoutratio,pb,pe,pe1,ppnenet,prefdivis,price,ps,ps1,receivables,retearn,revenue,revenueusd,rnd,roa,roe,roic,ros,sbcomp,sgna,sharefactor,sharesbas,shareswa,shareswadil,sps,tangibles,taxassets,taxexp,taxliabilities,tbvps,workingcapital

Answer 1

解決方案是merge_asof ，它允許在第二個 dataframe 之后或之前將日期列合並到更接近的位置。

由於它不明確，我將在這里假設daily.date和sf1.datekey都是真正的日期列，這意味着它們的 dtype 是datetime64[ns] 。 merge_asof不能使用具有object的字符串列。

我還將假設您不希望sf1數據幀中的 ev evebit evebitda marketcap pb pe 和 ps 列，因為它們的名稱與daily的列沖突（稍后會詳細介紹）：

代碼可以是：

df = pd.merge_asof(daily, sf1.drop(columns=['dimension', 'calendardate',
                                            'reportperiod','lastupdated',
                                            'ev', 'evebit', 'evebitda',
                                            'marketcap', 'pb', 'pe', 'ps']),
                                   by = 'ticker', left_on='date',
                                   right_on='datekey')

您將獲得以下列列表：ticker, date, lastupdated, ev, evebit, evebitda, marketcap, pb, pe, ps, datekey, accoci, assets, assetsavg, assetsc, assetsnc, assetturnover, bvps, capex, cashneq, cashnequsd, cor，consolinc，currentratio，de，債務，debtc，debtnc，debtusd，deferredrev，depamor，存款，divyield，dps，ebit，ebitda，ebitdamargin，ebitdausd，ebitusd，ebt，eps，epsdil，epsusd，股權，equityavg，equityusd， fcf，fcfps，fxusd，gp，毛利，無形資產，intexp，invcap，invcapavg，庫存，投資，投資c，投資nc，負債，負債c，liabilitync，ncf，ncfbus，ncfcommon，ncfdebt，ncfdiv，ncff，ncfi，ncfinv，ncfo， ncfx, netinc, netinccmn, netinccmnusd, netincdis, netincnci, netmargin, opex, opinc, 應付賬款, payoutratio, pe1, ppnenet, prefdivis, price, ps1, 應收賬款, reearn, 收入,incomeusd, rnd, roa, roe, roic, ros, sbcomp，sgna，sharefactor，sharesbas，shareswa，shareswadil，sps，有形資產，taxassets，taxexp，taxliabilities，tbvps，營運資本及其相關值

如果要保留 dataframe 中存在的列，則必須重命名它們。 這是一個可能的代碼，將_d添加到每天的列名稱中：

df2 = pd.merge_asof(daily, sf1.drop(columns=['dimension', 'calendardate',
                                            'reportperiod','lastupdated']),
                                   by = 'ticker', left_on='date',
                                   right_on='datekey', suffixes=('_d', ''))

現在的列列表是：ticker, date, lastupdated, ev_d, evebit_d, evebitda_d, marketcap_d, pb_d, pe_d, ps_d, datekey, accoci, ...

如何根據該文件中行中的日期將 CSV 文件在特定日期之間的值傳輸到另一個 CSV 文件？

問題描述

1 個解決方案

解決方案1
2 已采納 2021-02-27 12:10:42

如何根據該文件中行中的日期將 CSV 文件在特定日期之間的值傳輸到另一個 CSV 文件？

問題描述

1 個解決方案

解決方案1 2 已采納 2021-02-27 12:10:42

解決方案1
2 已采納 2021-02-27 12:10:42