在Spark-SQL和GeoMesa中的地理空間表上左半聯接

Question

問題：

我有2個表（d1和d2）包含地理空間點。 我要執行以下查詢：

select * from table 1 where table1.point is within 50km of any point in table2.point

我正在使用帶有GeoMesa和Accumulo Spark-SQL來實現相同的目的。 （火花作為處理引擎，Accumulo作為數據存儲和GeoMesa用於GeoSpatial庫）。

上面的查詢是一種left semi join Spark-SQL但是我不確定如何使用Spark-SQL來實現它，因為就我所讀取的子查詢而言，無法在where子句中使用。

Answer 1

能夠使用以下方法實現此目的：

select * from d1 left semi join d2 on st_contains(st_bufferPoint(d1.point, 10000.0), d2.point)

Spark廣播了d2並正在進行加入，但由於d1的規模為50億，d2的規模為1000萬，因此仍需要花費更多時間。

不知道是否有任何更有效的方法可以達到相同目的。