繁体   English   中英

Google Cloud Storage JSON 到 Pandas Dataframe 到仓库

[英]Google Cloud Storage JSONs to Pandas Dataframe to Warehouse

我是 ETL 的新手。 我刚刚设法以 JSON 的形式将大量信息提取到 GCS。 每个 JSON 文件都包含相同的键值对,现在我想根据某些键值将它们转换为数据帧。

下一步是将其加载到像 Clickhouse 这样的数据仓库中,我猜? 我找不到有关此过程的任何教程。 TLDR 1)有没有一种方法可以在不下载整个数据的情况下在 Python 中转换 GCS 上的 JSON 数据? TLDR 2)如何将其设置为定期或实时运行? TLDR 3)如何将数据加载到仓库中?

如果这些太多了,如果你能给我指出这方面的资源,我会很高兴。 感谢帮助

有一些方法可以做到这一点。

  1. 您可以将文件添加到存储中,然后每次添加新文件时都会激活Cloud Functions ( https://cloud.google.com/functions/docs/calling/storage ) 并将调用Cloud Run中的端点(容器服务- https://cloud.google.com/run/docs/building/containers )运行Python应用程序以在dataframe框中转换这些JSONs 请注意,容器映像将存储在Container Registry中。 然后在 Cloud Run 上运行的 Python notebook 会将行增量保存到BigQuery (仓库)。 之后,您可以使用Looker Studio进行分析。

  2. 如果您需要将解决方案扩展到数百万/数十亿行,您可以将文件添加到存储中,激活Cloud Functions并调用Dataproc ,这是一种可以运行 Python、 Anaconda等的服务。( 如何从 google 调用 google dataproc 作业云函数)。 然后这个Dataproc集群会将 JSON 结构化为数据框并保存到仓库 (BigQuery)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM