簡體   English   中英

Dataframe 使用 Pandas 合並

[英]Dataframe merging using Pandas

這是我的 df1 和 df2 數據幀代碼。 我正在嘗試合並這些 df1 和 df2。 我正在閱讀一個包含 df1 1127 行和 1 列的表,df2 包含 284403 行和 2 列。


   import pandas as pd
   df1 = pd.read_table("mass2.txt")
   df1.columns =['ID']
   print(df1)
   df2 = pd.read_table("combined.txt",sep=",")
   df2.columns =['Teff','ID']
   print(df2)
   columns_titles = ["ID","Teff"]
   df3=df2.reindex(columns=columns_titles)
   print(df3)
   df4 = df1.merge(df3, on='ID', how='left')
   print(df4)

我需要合並 df2 和 df1。 “ID”列在 df1 和 df2 中都有一些相似的元素。 使用它我需要獲得相應的 Teff。

例如,只要 df1 和 df2 的 ID 相同,我就需要這樣的 output

df1樣本:

                ID 
       J22154748 + 4954052
       J22154748 + 4954052
       J22152631 + 4958343
       J22154748 + 4954052
       J22154748 + 4954052
       AP17515104-3446100
       AP17515104-3446100
       J05062845 + 4112062
       J16142485-3141000
       J16142485-3141000 

df2樣本:

  
                   ID                Teff
          J00000446 + 5854329      4757.323   
          J00000546 + 6152107      4937.3726  
          J00000797 + 6436119      4524.269   
          J00000940 + 5515185      4651.9395  
          J00001071 + 6258172      4546.092   
          AP17515104-3446100       4835.6143
          J23595676 + 7918072      4333.089
          J22154748 + 4954052     4859.9087 

預期 output 會是這樣的。

                ID                   Teff
          AP17515104-3446100       4835.6143
          AP17515104-3446100       4835.6143
          J16142485-3141000        4359.9766
          J22154748 + 4954052      4859.9087 
          J22154748 + 4954052      4859.9087 
       

但是當我運行我的代碼時,我最終在 Teff 專欄中得到了 Nan。 但是當我使用 pd.dataframe 而不是當我使用 pd.read_table 時,我得到了所需的 output。 是否有一個原因?

您可以嘗試刪除所有無用的字符嗎?

>>> pd.merge(df1, df2['Teff'], how='inner',
          left_on=df1['ID'].replace(r'[^\w+-]', '', regex=True),
          right_on=df2['ID'].replace(r'[^\w+-]', '', regex=True))

                key_0                   ID       Teff
0   J22154748+4954052  J22154748 + 4954052  4859.9087
1   J22154748+4954052  J22154748 + 4954052  4859.9087
2   J22154748+4954052  J22154748 + 4954052  4859.9087
3   J22154748+4954052  J22154748 + 4954052  4859.9087
4  AP17515104-3446100   AP17515104-3446100  4835.6143
5  AP17515104-3446100   AP17515104-3446100  4835.6143

您還可以使用df1['ID'].str.strip()刪除前導和尾隨空格。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM