繁体   English   中英

python-基于与另一个数据框的比较的新列

[英]python - New column based on comparison with another dataframe

我有两个数据框。 我想根据与另一列的比较在其中创建一个新列。

我是Python的新手,但这是我在R中的解决方案,它虽然有效,但又恐怖又缓慢。 我想找到一种更快的方法,并且我一直在拼命尝试学习使用pandas因为这似乎是一种好方法。

映射文件(约有80万行)

Name    Chr   Position
S1      1      3000
S2      1      6000
S3      1      1000

Armsfile(具有39行)

Chr    Arm    Start   End
1      p      0       5000
1      q      5001    10000

R脚本:

for (line in 1:nrow(mapfile)){
      mapfile$Arm[line] <- Armsfile$Arm[mapfile$Chr[line] == Armsfile$Chr &  mapfile$Position[line] > Armsfile$Start &  mapfile$Position[line] < Armsfile$End]
      }

输出表:

Name   Chr   Position   Arm
S1      1     3000      p
S2      1     6000      q
S3      1     1000      p

换句话说:我希望每行查找位置(1)找到正确的Chr ,2)找到START < POSITION < END )所在的行,然后获取ARM信息并将其放在新列中。

我尝试只为Python重新格式化R脚本,但语法不正确。 我也尝试对pandas使用merge ,但是找不到进行数学比较的方法。

为了完整起见,以下是我刚才提到的错误尝试:

for line in 1:mapfile.shape[0]:
      mapfile$Arm[line] = Armsfile$Arm[   mapfile$Chr[line] == Armsfile$Chr &&  mapfile$Position[line] > Armsfile$Start &&  mapfile$Position[line] < Armsfile$End]

df = pd.merge(mapfile, Armsfile, on=['Chr', mapfile.Position > Armsfile.Start, mapfile.Position < Armsfile.End])

编辑:另一种可能的思考方式

我一直在研究R中的另一种可能性,也许可以将其翻译成Python。 这是R代码:

mapfile <- data.frame(Name = c("S1", "S2", "S3"), Chr = 1, Position = c(3000, 6000, 1000), key = "Chr")
Chr.Arms <- data.frame(Chr = 1, Arm = c("p", "q"), Start = c(0, 5001), End = c(5000, 10000), key = "Chr")
mapfile$Arm <- c("N")
> mapfile
   Name Chr Position Arm
1:   S1   1     3000   N
2:   S2   1     6000   N
3:   S3   1     1000   N

for(i in 1:nrow(Chr.Arms)){
   cur.row <- Chr.Arms[i,]
   mapfile$Arm[mapfile$Chr == cur.row$Chr & mapfile$Position >= cur.row$Start & mapfile$Position <= cur.row$End] <- Chr.Arms$Arm
   }

> mapfile
   Name Chr Position Arm
1:   S1   1     3000   p
2:   S2   1     6000   p
3:   S3   1     1000   q

但是,同样地,对于如此大的数据,我希望能够在Python中执行类似的操作。 我尚未找到解决方案。

由于您有80万行数据,因此我不知道这样做有多理想,但是您可以:

  1. 合并
  2. 使用loc过滤合并的dataframe

df = Mapfile.merge(Armsfile)
df.loc[(df['Position'] > df['Start']) & (df['Position'] <= df['End'])].drop(['Start', 'End'], axis=1)

注意:我不确定如何处理Armsfile Chr因为在您的示例中MapfileArmsfile Chr均为1。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM