![](/img/trans.png)
[英]How to create columns in a dataframe out of columns of another dataframe in PySpark
[英]How to Join Pyspark Dataframe that is In Between 2 Columns of another Dataframe?
我有 2 个数据帧,其中一个由 1 列整数组成,第二个数据帧由 3 列(integer_start、integer_end、animal)组成。
数据框及其列
dataframe1 -> integer
dataframe2 -> integer_start, integer_end, animal
所以我想要做的是加入这两个数据帧,如果
dataframe1.integer is in between dataframe2.integer_start and dataframe2.integer_end
取出 dataframe1.integer 和相应的 dataframe2.animal 并放入一个名为 dataframe3 的新数据帧中
希望你能帮我解决这个问题。 我为此使用 PySpark。
您好,您可以使用简单的连接来执行此操作。
result= dataframe1.join(dataframe2,[ dataframe2.integer_start <= dataframe1.integer , dataframe2.integer_end >= dataframe1.integer ], how='inner').select("integer","animal")
这将给你你所需要的。
根据您是否要包括边缘情况,您可以删除 <= 和 >= 中的 =。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.