繁体   English   中英

R(或Python)是否可以加快地理空间分析?

[英]R (or Python) any way to speed up geospatial analysis?

我正在研究一个我要确定彼此之间距离不远的数据点的性质的问题。 基本上,对于每一行数据,我都会尝试确定地理范围内数据点的“邻域”,然后找出该“邻域”的特征。

问题是这是O ^ 2问题,因为我当前嵌套了for循环,这意味着我正在运行nrow ^ 2计算(我有70k行,所以是4.9B!计算....哎呀)

所以我的R(伪)代码是

for (i in 1:n.geopoints) {
   g1<-df[i,]
   for (j in 1:n.geopoints) {
      g2 <- df[j,]
      if (gdist(lat.1 = g1$lat, lon.1=g1$lon, lat.2 = g2$lat, lon.2 = g2$lon, units = "m") <= 1000) {
         [[[DO SOME STUFFF]]]
      }
   }
}

如何以更直接的方式实现这一目标? 有我可以依靠的功能吗? 我可以向量化吗?

我在R中有此功能,但是如果有更好的功能可用,则可以轻松地将其放到Python中。

谢谢

这是一种使用data.table的方法,以及我为该问题编写的重写的data.table公式,以便它可以在data.table操作中使用

这个想法是在每个单点,每个单点上执行一个data.table连接,但是在连接内计算每对点之间的距离,并删除阈值之外的点。 这是受@Jaap出色回答的启发

设定

Haversine公式是

## Haversine formula
dt.haversine <- function(lat_from, lon_from, lat_to, lon_to, r = 6378137){
  radians <- pi/180
  lat_to <- lat_to * radians
  lat_from <- lat_from * radians
  lon_to <- lon_to * radians
  lon_from <- lon_from * radians
  dLat <- (lat_to - lat_from)
  dLon <- (lon_to - lon_from)
  a <- (sin(dLat/2)^2) + (cos(lat_from) * cos(lat_to)) * (sin(dLon/2)^2)
  return(2 * atan2(sqrt(a), sqrt(1 - a)) * r)
}

我在此示例中使用的数据来自我的googleway包,它是墨尔本City Loop电车上的电车站

library(googleway)

## Tram stops data
head(tram_stops)
#   stop_id                                     stop_name stop_lat stop_lon
# 1   17880           10-Albert St/Nicholson St (Fitzroy) -37.8090 144.9731
# 2   17892    10-Albert St/Nicholson St (East Melbourne) -37.8094 144.9729
# 3   17893 11-Victoria Pde/Nicholson St (East Melbourne) -37.8083 144.9731
# 4   18010    9-La Trobe St/Victoria St (Melbourne City) -37.8076 144.9709
# 5   18011  8-Exhibition St/La Trobe St (Melbourne City) -37.8081 144.9690
# 6   18030    6-Swanston St/La Trobe St (Melbourne City) -37.8095 144.9641

计算

现在我们有数据,并且距离公式,我们可以构建data.table加盟

library(data.table)

## set the tram stop data as a data.table
dt1 <- as.data.table(tram_stops)

## add a column that will be used to do the join on
dt1[, joinKey := 1]

## find the dinstance between each point to every other point
## by joining the data to itself
dt2 <- dt1[
  dt1
  , {
    idx = dt.haversine(stop_lat, stop_lon, i.stop_lat, i.stop_lon) < 500 ## in metres
    .(stop_id = stop_id[idx],
      near_stop_id = i.stop_id)
  }
  , on = "joinKey"
  , by = .EACHI
]

结果

dt2现在包含两列距离彼此相距500米以内的stop_id(包括相同的停靠点,因此可以将其删除)

dt2 <- dt2[stop_id != near_stop_id]

情节

当我们使用googleway ,让我们绘制一些结果(要做到这一点,您需要一个Google Maps API密钥,或使用另一个映射库,例如传单)

mapKey <- "your_api_key"

## Just pick one to look at
myStop <- 18048
dt_stops <- dt3[stop_id == myStop ]

## get the lat/lons of each stop_id
dt_stops <- dt_stops[
  dt1      ## dt1 contains the lat/lons of all the stops
  , on = c(near_stop_id = "stop_id")
  , nomatch = 0
]

google_map(key = mapKey) %>%
  add_circles(data = dt1[stop_id == myStop], lat = "stop_lat", lon = "stop_lon", radius = 500) %>%
  add_markers(dt_stops, lat = "stop_lat", lon = "stop_lon")

在此处输入图片说明

笔记

data.table应该非常有效,但是显然我在这里使用的数据只有51行。 您必须让我知道此方法可扩展到您的数据的程度

您可能需要考虑其他方法。 我会使用QGIS之类的GIS工具来细分您的数据。 就像您说的那样,您不需要数据的完整笛卡尔连接,只需本地集群即可。 查看一些聚类问题。

GIS Stackexchange上的这个问题通过一个具有800k数据点的类似类型问题解决。 https://gis.stackexchange.com/questions/211106/clustering-points-polygons-based-on-proximity-within-specifed-distance-using-q

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM