簡體   English   中英

如何使用csv中的spark在python中可視化地圖上的數據?

[英]How to visualize data on a map using python in spark that came from csv?

我在HDFS有一個CSV文件。 我正在使用最新版本的SparkPython 3.7 我怎樣才能使CSV可視化?

我嘗試了以下示例代碼:

from pyspark.sql.functions import avg

mydataframe = spark.read.csv("/diamonds.csv", header="true", inferSchema="true")

display(mydataframe.select("color","price").groupBy("color").agg(avg("price")))

問題是,我在輸出中看到的只是文本,看起來像mydataframe的架構,而不是實際的圖表或可視化。

我想在地圖上顯示“緯度”和“經度”列。 我怎樣才能做到這一點?

您是否考慮過使用專為地理可視化(例如geopandas)設計的python模塊?

import geopandas as gpd
from shapely.geometry import Point

geometry = [Point(xy) for xy in zip( mydataframe["LONGITUDE"], mydataframe["LATITUDE"])]
gdf = gpd.GeoDataFrame(mydataframe, geometry=geometry)
gdf.plot()

有關更多詳細信息,請參見Application GeoPandas和Spark

我有一個非常類似的問題,我在數據磚平台上工作過。 簡而言之,想法如下所示:

  1. 將OpenStreetMaps與leafletjs一起使用可渲染帶有疊加層的地圖。 使用databricks筆記本中的displayHTML函數呈現HTML。
  2. 標記用於表示地圖上的信息。
  3. 對於小型數據集,渲染幾個標記不是問題。 但是對於大型數據集,渲染是一個巨大的問題,因為瀏覽器被卡住了,可以使用markercluster解決 標記群集允許類似鑽取的功能。

對於任何足以在瀏覽器上引起麻煩的數據集,我建議您自己以可用的方式匯總數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM